「生成 AI を活用した特許データの処理、視覚化、 分析、及び、解釈について」、が公開されました。
はじめに
「生成 AI を活用した特許データの処理、視覚化、 分析、及び、解釈について」、が、パテント誌のホームページで無料公開されましたのでお知らせいたします。
論文への直接リンクです。
https://jpaa-patent.info/patent/viewPdf/4453
この論文のデータ処理作業は2023年8月に行いましたので、内容的には、古さがあることも否めません。
そこで今ならどう作業するか、この論文を見ながら考えてみます。
特許データの処理について
分類生成
この論文では、分類生成を大規模言語モデルの学習データのみに依存しています。
これはこれで楽なのでよいと思いますが、実務としてやる場合には、特許データから分類を生成した方が、妥当な分類になる可能性が高いと思います。
今年の知財学会では、特許データから生成した分類を使用した分析法で発表する予定です。
分類あてはめ
この論文では分類あてはめを、GASアプリで行っています。しかし、このアプリは有料化されてしまいましたので、現在は使用しておりません。
今は、①ChatGPTにやらせる、②自作GASスクリプトで実行、③自作Pythonコードで実行、の3種類を使い分けています。
しかし、②と③はハードルが高いので、セミナーなどでは①の方法を主に紹介しています。
特許データの視覚化
この論文では、視覚化プログラムをChatGPTに作らせて、プログラムの実行はGoogle Colaboで行っています。
今はどうしているかといえば、日常使うプログラムについては、Google Colaboで行い、その他は、ChatGPTのアドバンスドデータアナリシスを使用しています。
アドバンスドデータアナリシスのよいところは、データとプロンプトを与えれば、視覚化できるところです。
悪いところは、都度プログラムを生成するため、実行に時間がかかるのと、毎回微妙に異なる図が生成される点にあると思います。
したがって、繰り返し使う視覚化プログラムに関しては、この論文のように、Google Colaboで実行するのがよいと思います。
特許データの分析と解釈
特許データの分析と解釈については、今もこの論文程度のことしかやっていません。
凝ったプロンプトを作成することにより、レベルの高い解釈ができると思いますが、私以外の人がやってくれるだろうという希望的観測のもと、特になにもしていません。
また、生成AIの能力向上に伴い、適当なプロンプトでも、レベルの高い解釈がなされてゆくだろうという、こちらも希望的な観測のもと、あえてやる意欲があまりありません。
とはいえ、どのようなデータを入力すれば、生成AIは的確な解釈はできるのだろうという、疑問はありますので、こちらは機会があればトライしています。
今年の知財学会でも、このあたりのトライはする予定です。
まとめ
この論文の投稿日は2023.9.27なのですが、生成AIの進歩が速すぎて、あっという間に陳腐化してしまいます。
やはり、単純な生成AIの使用法のみでは、陳腐化はさけられませんので、自分独自の分析法を組合わせて生成AIを活用することを考えてゆきたいと思います。