見出し画像

[論文読み]特許における化合物検索の現在の方法論とケーススタディー

進化する化合物検索の方法論

こんにちは!特許調査の仕事をしてます、酒井といいます。この記事は久しぶりの「検索系の論文読み」です。
ここ数年、化合物検索のツールがどんどん進化しているな、と感じていました。下記は過去記事です。

この記事で解説する論文「Current methodologies for chemical compound searching in patents: A case study」は
「最近の化合物特許検索について、各種ツールを比較検証したよ!」という内容です。

https://www.sciencedirect.com/science/article/abs/pii/S0172219021000351

忙しい方へのまとめ

・最近は化合物の抽出を完全に自動化したデータベースが増えている。
・高い網羅性を求めるならば「自動化データベース+フルテキストデータベース+付加価値型データベース」の検索が必要かもしれない。
・最低限FamPatのようなフルテキストデータベースとCAPLUSのような付加価値型のデータベースを組み合わせて使用することが必要。

論文要約

1.はじめに

化合物のほぼ完全な特許検索を行いたい!という課題は化学関連の特許調査に共通する。たとえば化合物の販売・製造または使用を妨げる特許を特定するFTO(Freedom to Operate)調査では、関連する特許を1つ見逃しただけでも検索結果が損なわれる可能性がある。従って、関連する特許を100%抽出する事がFTO調査の最終的な目標となる。

電子データベースによる特許中の化合物の検索は1950年代頃から検討された長い歴史がある。
よく知られているパイオニアはCASで、特定の化合物は手動でインデックスされている。

1990年代に全文特許データベースが登場したことで、化合物を手動で索引付けしなくとも検索が可能になった。フルテキストの特許データベースでは、クレーム内や全文などを対象に、化合物のキーワードベースの検索が可能になった。

最近では全文および画像から化合物を完全に自動抽出する方法が特許情報の世界に広まりつつある。これらの方法では、IUPAC国際化学識別し(InChI)やInChiKey、またはSMILESなどの標準化表現を使用する。

テキストマイニングアプローチでは、さまざまな化学物質名が化学名辞書に基づいて識別される。これに関連して、原則として化学名は英語の特許だけでなく、アジアを含む他の言語の特許からも取得できる事を強調しておく。

化学構造は特許文書内の画像から直接キャプチャーする事もできる。また、米国特許の場合は添付ファイルからも抽出される。(2001年以来、USPTOは添付ファイルを対象とした作業を許可している)

2.対象の化合物とデータベース、検証方法

2.1 対象化合物(ディスパースオレンジ25)

アゾ染料の「ディスパースオレンジ25」を比較検証の対象とする。

https://jglobal.jst.go.jp/detail?JGLOBAL_ID=200907083471113118

2.2 使用データベース

1)化合物インデックスの作成が自動化されているタイプ
   • SciWalker [OntoChem, www.sciwalker.com]
   • SureChEMBL [EMBL-EBI, www.surechembl.org]
   • Patentscope [WIPO, patentscope.wipo.int]
2)フルテキストデータベース
   • FullPat [Questel, www.orbit.com]
3)付加価値型データベース
   • CAPLUS [Chemical Abstracts Service/STN International]    
を使用

2.3 検索プロセス

1)~3)のすべてのデータベースで、検索対象はUS,EP,WOとした。
期間の制限は設けない。 (すべての収録データを対象)
SciWalker / SureChEMBL / Patentscope および FullPat は全文を対象とした検索を実施。CAPLUSは基本索引(タイトル、要約、補助用語、索引用語)を検索対象とした。 

検索式は次の通り

https://www.sciencedirect.com/science/article/abs/pii/S0172219021000351


3.結果

ステップ1では SciWalker / SureChEMBL / Patentscopeを、
ステップ2では Fullpat を
ステップ3では CAPLUS を使用。

結果の概要は次のとおり

3.1 ステップ1 SciWalker / SureChEMBL / Patentscope

SciWalker / SureChEMBL / Patentscope の各DB比較。
ディスパースオレンジ25のケースでは 殆どのファミリーがSciWalkerから検出された。すべてのデータベースで発見されたファミリーの数は70。
ユニーク(他では見つからない)なヒットはSciWalkerで34、SureChEMBMで14。

3.2 ステップ2 FullPat

SciWalker / SureChEMBL / Patentscope  と FullPat の結果比較。
FullPatは多くのファミリーをカバーし、また、SciWalker / SureChEMBL / Patentscopeでは検出できなかったファミリーを104ファミリー取得。
一方、SciWalker / SureChEMBL / Patentscopeでユニークなヒットは10ファミリー

3.3 ステップ3 CAPlus

SciWalker / SureChEMBL / Patentscope + FullPat と
CAPLUS との結果比較。CAPLUSだけで発見されたファミリーは9だった。

4.議論

4.1 パテントファミリーとの関係

SciWalker、SureChEMBL、Patentscope、FullPatの検索は、WO、US、EPの特許公報のフルテキストで行った。

以下に詳しく述べる理由により、これらのデータベースの回答セットは大きく異なっている。しかし、これらのデータベースは、対応するCAPLUSの回答セットに比べ、2倍から6倍大きいことがわかる。CAPLUSでは、化合物は、それぞれの特許文書に特に関連性がある場合にのみ、CAS登録番号や化学名によって索引付けされている。SciWalker、SureChEMBL、Patentscope、および FullPat のヒット文書は、関連性を考慮せずに検索されたが、CAPLUS のヒット文書は Disperse Orange 25 と特定の関連性を持っている必要がある。

SciWalker/SureChEMBL/Patentscope (combined), FullPat, CAPLUSからの回答セットを特に関連性の高いものに限定するため、タイトル、抄録、請求項におけるDisperse Orange 25の出現をチェックした。図5に示すように、この制限をかけることで、同程度のヒット数を得ることができた。

SciWalker/SureChEMBL/Patentscope (combined), FullPat, CAPLUSから取得した。SciWalker、SureChEMBL、Patentscope、FullPatの結果を組み合わせることで、タイトル、抄録、クレームにDisperse Orange 25が出現する35件の特許ファミリーがヒットした。このうち、13件はCAPLUSでは見つからないものであった。

CAPLUS の IPC 事前選択スキームに該当しない IPC クラスのために CAPLUS にエントリーがない 3 つの特許ファミリーを除外し、さらに偽陽性ヒットを除外した結果、9 つの特許ファミリーが残った。これらのファミリーではDisperse Orange 25が特許請求の範囲に記載されているにもかかわらず、索引に登録されていません。

(CAS は、その General Guidelines for Indexing of Specific Substances で、CAPLUS における物質の索引付けに関する主なガイドラインを定義している。)

4.2 ユニーク(独自)ヒットパテントファミリー

表3に示すように、Patentscopeを除いて、各データベースは、多かれ少なかれユニークなヒットを検索している。

最も多くのユニークヒットが見つかったのは、FullPat(102件)であった。一方、CAPLUS(9件)、SureChEMBL(2件)、SciWalker(1件)は、検索件数が非常に少ない。

FullPat特有の特許ファミリーでは、近接演算子(3W)を用いると、Disperse Orange 1, 5, 13, 25...のようなフレーズを含む文書が検索されることが多い。

Disperse Orange 25% (e.g. US 5476519) などのアゾ染料が検索されるため、誤検出する場合もある。

4.3 SciWalker / SureChEMBL / Patentscopeの結果の違い

SciWalker と SureChEMBL の回答セットのうち 96 件の特許ファミリーが Patentscope では見つからなかった。

CAPLUSと同様に、Patentscopeでも、化学物質のアノテーション処理に適した特許文書を事前に選択するためにIPCフィルターが適用されている。

D06(繊維処理)、B41(印刷)、H01(基本電気素子)などの非化学的なIPCクラスを持つ特許文書は、Patentscopeの化学検索では対象外とされている。

Patentscopeでパテントファミリーが見つからないもう一つ理由は、物質のアノテーション(インデックス化)が不完全である点にある。例えば、US 9340695は、SciWalkerでは見つかったが、Patentscopeでは見つからなかった。この特許では、Disperse Orange 25は、分散染料の長いリストの中に記載されている。

画像はUS 9340695の画像と、SciWalkerおよびPatentscopeの対応する物質注釈を示したものである。両データベースとも、分散染料の注釈は確認されていない。しかし、この場合、SciWalkerはDisperse Orange 25を含む、かなり多くの物質にアノテーションを付けている。

SciWalker、SureChEMBL、Patentscopeの検索結果を比較すると、異なる理由により、これらのデータベースのいずれもが、ほぼ完全な回答セットを検索することに成功していないことが明らかになる。

各データベースの特徴をまとめると、全自動で化合物を認識できるデータベースとして、以下のような要件が想定される。

  • 全てのIPC分類の特許文書からの化合物のアノテーション

  • WOおよびEP文書からの化合物のアノテーションは、事前の機械翻訳の有無にかかわらず、言語に関係なく行うことができます。

  • 特に古い米国特許のデータベース文書は、構造画像を含むフルテキストを維持する必要があります。

  • テキストマイニングルーチンは、辞書ベースだけでなく、文法ベースや統計的アプローチも含むべき

  • 辞書ベースのテキストマイニングでは、同義語データベースは可能な限り包括的であるべきです。

  • 構造捕捉ルーチンには、構造画像認識とCWU添付ファイルの活用の両方を含めるべき

  • テキストマイニングルーチンと構造キャプチャルーチンは、テキスト本文だけでなく、表や図にも適用する必要がある

5.結論

このケーススタディの主な結果として、少なくとも被験物質であるDisperse Orange 25については、1つの例外を除き、ほぼ完全な検索結果を得るためには、テストしたすべてのデータベースの組み合わせが必要であるといえる。

化合物の抽出を完全に自動化したデータベースが、従来の付加価値データベースやフルテキストデータベースに取って代わる可能性があるという、当初策定した作業仮説は確認できなかった。
ただし、本研究では、Sci-Walker、SureChEMBL、Patentscopeといった自由に利用できるデータベースに限定していることは強調しておきたい。

この分野の商用データベースをより詳細に把握するためには、フルテキストデータベースや付加価値データベースと比較して評価することも必要であろう。さらに、CAPLUS のみを使用しても、少なくともほぼ完全な結果を得るには十分ではないことに留意する必要がある。

むしろ、特許調査の適正化の観点から、各ケースにおいて、FamPatのようなフルテキストデータベースとCAPLUSのような付加価値データベースを組み合わせて使用することが最低条件である。このケーススタディで示したように、完全に自動化された抽出機能を持つデータベースを追加で使用することで、より効果的な検索が可能になる。

感想など

最近増えてきた「化合物インデックスをAIを使って自動作成しているデータベース」の研究です。(比較に使われた自動作成型DBは、全て無料サービスです)

個人的には以前から「Patentscope面白いな!」と使っていたのですが、「化合物インデックスの作成対象を化合物のIPCが付与された公報に限っている」という説明が出てきて、なるほど!それで他DBとの差が大きいのか、という点が最大の発見でした。

また、フルテキストデータベースと J-GlobalPubChem 等の「同義語(化合物の別名)」、近傍検索を上手に使って検索する方法は、現在でもかなり有効と言えそうですね。

参考リンク

■論文
Current methodologies for chemical compound searching in patents: A case study

化合物インデックス自動作成型のデータベース

FullPat [Questel, www.orbit.com]

CAPLUS [Chemical Abstracts Service/STN International]

その他 特許の化合物インデックスを持つデータベース


この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?