CTO三上がメモするAI Samuraiへの道 vol.4
株式会社AI Samurai取締役CTO 三上です.特許調査/分析システム「AI Samurai」の開発を行っております.引き続き,AI Samuraiの開発過程をメモしていきたいと思います.
特許調査の精度?
前回書き留めたように,AI Samuraiの使い勝手がよくなり,結果が見やすくなって来れば来るほど,わかりやすいが故にその精度が重要になってきます.ここで難しいのが,特許調査の精度とは何かということです.AI Samuraiの場合,発明内容の新規性・進歩性を判定しており,類似文献を5件提示した上で発明内容がA〜Dでランク付けされます.そのため,・提示した類似文献の妥当性,・A〜Dのランク付けの妥当性,の2つが精度評価の対象として存在します.UI上ではランク付けを目立つようにしていることもあり,ランク付けの妥当性についてのユーザ様からの反応も多いのですが,このランク付けは類似文献が正しくて取れている前提で行っているので,システム的,あるいは開発者的にはまず類似文献の抽出精度が重要になってきます.
類似文献の抽出精度
AI Samuraiでは類似文献の抽出を複数の段階を踏んで実施しています.
1. 入力文解析でテキストを並列構造で分割(請求項の構成要素への分割)
2. IPCの推定
3. キーワード検索,概念検索,グラフ分析による類似文献候補の抽出
4. グラフ分析結果より類似文献候補内の該当箇所を精査し,最終的な提示文献を選択
ここで一番重要なのは3番の工程です.入力文の解析とIPCの推定ももちろん重要で,特にIPCを間違えると全く関係のない文献を抽出してしまうのですが,逆にそれ故,ユーザが直接指定できるようになっていて,もしシステムの推定が間違っていれば,ユーザ自身で修正して再検索できるようにしています.入力文の解析も「エレメントカッター」でマニュアル分割することができ,それにより最終的な精度が向上することは実験で確認しています.この2つはそこまでユーザに手間がかかることはないため,今の所ある意味でユーザに依存している部分ではあります.(とはいえ,全自動で全部システムに任せたとしてもある程度の精度は確認しています.)
話を戻して3番の工程ですが,その中でもさらに3段階に分かれていて,キーワード検索,概念検索,グラフ分析の3つを行い,それぞれのスコアを統合して10件程度まで絞り込んでいます(先行技術調査の場合).ただし,概念検索とグラフ分析は計算負荷の高い処理になるため,最初にキーワード検索で数百件に絞り込んでから適用しています.ここで,「スコアを統合するとは?」という疑問があるかもしれません.高負荷である概念検索やグラフ分析の精度が,高速なキーワード検索よりも常に良いのかと言うと全然そんなことはなく,分野や抽出された文献,入力された発明内容(のテキスト)などによってまちまちです.キーワード検索にはElasticsearchを利用していますが,Elasticsearch自体,かなり洗練されていて,なかなか高精度に文献を検索してくれます.そのため,平均的に抽出精度が向上するように,3つのスコアの多数決のようなシステムを採用しています.
精度評価
実際の抽出精度については,定量的・定性的に評価を随時行っています.特許検索の評価のためのテストコレクションが日本特許や米国特許で存在しており,研究の範囲内で評価を行っているほか,社内の弁理士により定性的な評価を日常的に行うことで改良を重ねているのが現状です.実はまだまだAI Samuraiは発展途上であり,割と高頻度にアルゴリズムの改良を行っています.AI Samuraiの機能である「調査履歴」から数カ月前の調査を再度行うと,類似文献上位の順位が入れ替わっていたり,全く異なる結果が出る場合も多々あります(単に最新のデータが追加されて結果が変わるというケースも多いですが).この辺りの事情はユーザ様から指摘を受けることもあり,営業チームにサポートしてもらったりしています.今の所,精度悪いより良いほうがいいよね,と若干開き直ってアルゴリズムをどんどん改良しているという状況です(スタートアップだから許されるという甘えも入っています).もちろん,どのタイミングでアルゴリズムが変わったのかわからないと以前の調査との比較が難しい,あるいは再調査する意味があるのかどうか判断できない,急に結果が変わって気持ち悪い,などの不便が考えられるので,1つ1つの調査結果にはどのバージョンで検索した結果なのかが表示されるようになっており,バージョンが上がった場合はお知らせページで通知されるようにもなっています.
ランク付け
上記のように抽出した類似文献と,入力された発明内容の構成要素との類似性を表形式でマッピングし,各構成要素と類似文献とのマッチ率によりそれぞれの新規性を評価し,特許全体の新規性・進歩性をABCDによるランク付けを行います.
このランク付けは,審査官がどのように新規性・進歩性を考えているかをアルゴリズム化し,社内の弁理士により構築されたランク付けデータベースを利用して学習した結果を適用したうえで,概ねランク付けがデータベースと合致するようにパラメータを調整して算出しています.現状では詳細な判断は類似文献の中身を精査する必要がありますが,大まかな目安にはなるかと思います.
多機能化への道
先行技術調査,クリアランス調査,無効資料調査をメイン機能として開発してきたAI Samuraiですが,それだけでは飽き足らないのが特許調査の世界です.より高度な機能や逆によりマニュアル調査に近い機能などの開発については,次回以降にメモしていきたいと思います.
三上崇志
京都大学理学部卒業.京都大学大学院情報学研究科修了.三菱電機入社後,テキストマイニング,カーナビシステム,エコーキャンセラ等の研究に従事する.2010年度IPA未踏事業でスーパークリエータとして認定される.起業後はSNS開発,ソフトウェア開発,ゲームアプリ等を企画・開発・運営し,ヴイストン株式会社にてコミュニケーションロボットSotaのソフトウェア開発を先導する.2018年,(株)AI SamuraiのCTOに就任し,基幹サービスであるAI Samuiを開発.大阪大学大学院情報学研究科・博士課程在学中.
リンク集
AI Samurai HP→ https://aisamurai.co.jp/
YouTube→ https://www.youtube.com/channel/UCPU2N2fekiUtMFqbCnokmpg
Twitter→ https://twitter.com/aisamurai_inc
FaceBook→ https://www.facebook.com/pg/shirasaka
Instagram→ https://Instagram.com/aisamuraiinc