見出し画像

[作業メモ] なんちゃって言語処理-公開時/登録時の請求項類似度をExcelで計算

こんにちは! 特許調査の仕事をしてます、酒井と申します。今日は「2つの類似した文章のペア(×複数組)の類似度をExcelでもりもり計算する方法」について書きます。作業メモ回です。

自然言語処理APIというものを使うんですが・・・
あっ!まってまって、逃げないでー! 笑

例題:メルカリの登録特許

公開時の独立請求項と 登録時の独立請求項との類似度比較です。
全く同じ文章なら類似度1、差が大きいほどゼロに近づきます。

クレームの書き出しから違っていて「かなり補正したかな?」という出願でも類似度を計算すると0.998程度。

公開=登録で、全く補正されていなければ 類似度=1.00 です。

・・・という具合に、
公開-登録 の請求項比較
国内-海外 の請求項比較 などに使えそうです。
(同じ言語でないと比較できないので、国内-海外の場合には機械翻訳を併用します。)

ーーーーー

上記の類似度計算は、Qiitaのこちらの記事を見て応用しました。

使用方法が詳しく説明されているので、
Excelで関数を使い慣れている方なら、簡単に使えるかと思います。
(マクロはわからなくても、たぶん大丈夫です。)

類似度推定の他に、
キーワード抽出あたりは検索の下処理に応用できるかもしれないですね。


単に「2つの文章を比べる」(文書ペアは1組~少数)だけなら
ユーザーローカルのAIテキストマイニングに貼る、という手がありますが

Qiitaで紹介されている類似度計算は
「大量の文書ペアを一挙に処理できる」のがポイントです。

使用しているCOTOHA API (NTTコミュニケーションズ)は

無料版の場合「各処理1日1000回まで」の制限があり、
使い切ると、翌日まで処理ができません。
(ちなみに処理用のIDが発行され、ID単位で制限されるので
 パソコンを変えても上限突破は難しそうです😅)

というわけで、もし「5000件を処理したい」場合には、
5日に分ける事になります。

このような「1件1件、公開-登録を見比べたら、
どの程度請求項が変わっているのか、感覚的には把握できるけど
数十件、数百件となると、面倒だな・・・」という作業、

作業内容によりけり・・・ではありますが、
案外、使うデータと作業手順をしっかり組み立てたら
機械的に処理できるもの、案外たくさんあるかもしれないですね。

以上、今日の作業メモでした。

いいなと思ったら応援しよう!