[作業メモ] なんちゃって言語処理-公開時/登録時の請求項類似度をExcelで計算
こんにちは! 特許調査の仕事をしてます、酒井と申します。今日は「2つの類似した文章のペア(×複数組)の類似度をExcelでもりもり計算する方法」について書きます。作業メモ回です。
自然言語処理APIというものを使うんですが・・・
あっ!まってまって、逃げないでー! 笑
例題:メルカリの登録特許
公開時の独立請求項と 登録時の独立請求項との類似度比較です。
全く同じ文章なら類似度1、差が大きいほどゼロに近づきます。
クレームの書き出しから違っていて「かなり補正したかな?」という出願でも類似度を計算すると0.998程度。
公開=登録で、全く補正されていなければ 類似度=1.00 です。
・・・という具合に、
公開-登録 の請求項比較
国内-海外 の請求項比較 などに使えそうです。
(同じ言語でないと比較できないので、国内-海外の場合には機械翻訳を併用します。)
ーーーーー
上記の類似度計算は、Qiitaのこちらの記事を見て応用しました。
使用方法が詳しく説明されているので、
Excelで関数を使い慣れている方なら、簡単に使えるかと思います。
(マクロはわからなくても、たぶん大丈夫です。)
類似度推定の他に、
キーワード抽出あたりは検索の下処理に応用できるかもしれないですね。
単に「2つの文章を比べる」(文書ペアは1組~少数)だけなら
ユーザーローカルのAIテキストマイニングに貼る、という手がありますが
Qiitaで紹介されている類似度計算は
「大量の文書ペアを一挙に処理できる」のがポイントです。
使用しているCOTOHA API (NTTコミュニケーションズ)は
無料版の場合「各処理1日1000回まで」の制限があり、
使い切ると、翌日まで処理ができません。
(ちなみに処理用のIDが発行され、ID単位で制限されるので
パソコンを変えても上限突破は難しそうです😅)
というわけで、もし「5000件を処理したい」場合には、
5日に分ける事になります。
このような「1件1件、公開-登録を見比べたら、
どの程度請求項が変わっているのか、感覚的には把握できるけど
数十件、数百件となると、面倒だな・・・」という作業、
作業内容によりけり・・・ではありますが、
案外、使うデータと作業手順をしっかり組み立てたら
機械的に処理できるもの、案外たくさんあるかもしれないですね。
以上、今日の作業メモでした。