[作業メモ] なんちゃって言語処理－公開時/登録時の請求項類似度をExcelで計算

2022年2月4日 15:49

こんにちは！特許調査の仕事をしてます、酒井と申します。今日は「２つの類似した文章のペア（×複数組）の類似度をExcelでもりもり計算する方法」について書きます。作業メモ回です。

自然言語処理ＡＰＩというものを使うんですが･･･
あっ！まってまって、逃げないでー！　笑

例題：メルカリの登録特許

公開時の独立請求項と　登録時の独立請求項との類似度比較です。
全く同じ文章なら類似度１、差が大きいほどゼロに近づきます。

クレームの書き出しから違っていて「かなり補正したかな？」という出願でも類似度を計算すると0.998程度。

公開＝登録で、全く補正されていなければ　類似度＝1.00　です。

･･･という具合に、
公開－登録　の請求項比較
国内－海外　の請求項比較　などに使えそうです。
（同じ言語でないと比較できないので、国内－海外の場合には機械翻訳を併用します。）

ーーーーー

上記の類似度計算は、Qiitaのこちらの記事を見て応用しました。

使用方法が詳しく説明されているので、
Excelで関数を使い慣れている方なら、簡単に使えるかと思います。
（マクロはわからなくても、たぶん大丈夫です。）

類似度推定の他に、
キーワード抽出あたりは検索の下処理に応用できるかもしれないですね。

単に「２つの文章を比べる」（文書ペアは１組～少数）だけなら
ユーザーローカルのAIテキストマイニングに貼る、という手がありますが

Qiitaで紹介されている類似度計算は
「大量の文書ペアを一挙に処理できる」のがポイントです。

使用しているCOTOHA API (NTTコミュニケーションズ)は

無料版の場合「各処理１日1000回まで」の制限があり、
使い切ると、翌日まで処理ができません。
（ちなみに処理用のIDが発行され、ID単位で制限されるので
　パソコンを変えても上限突破は難しそうです😅）

というわけで、もし「5000件を処理したい」場合には、
５日に分ける事になります。

このような「１件１件、公開－登録を見比べたら、
どの程度請求項が変わっているのか、感覚的には把握できるけど
数十件、数百件となると、面倒だな･･･」という作業、

作業内容によりけり･･･ではありますが、
案外、使うデータと作業手順をしっかり組み立てたら
機械的に処理できるもの、案外たくさんあるかもしれないですね。

以上、今日の作業メモでした。

いいなと思ったら応援しよう！