見出し画像

A large-scale evaluation of NLP-derived chemical-gene/protein relationships from the scientific literature: Implications for knowledge graph construction

1. 本研究の学術的背景は自然言語処理(NLP)を用いた生物医学文献の三つ組(主語-述語-目的語)のマイニングと知識グラフ(KG)構築に関する活発な研究です。研究課題の核心となる学術的な「問い」は、文の中のエンティティの共起のマイニングに関しては比較的頑健な統計的方法があるが、正確な関係性の抽出はより困難であるため、それをどう解決するかという点です。

2. 本研究の目的は、生物医学的関係のグローバルネットワーク(GNBR)というデータセットを評価し、化学物質と遺伝子/タンパク質の関係性を評価することです。その独自性と創造性は、NLPデータが知識グラフに組み込まれる精度にどのように影響するかに関連するさまざまなGNBRデータの処理方法を議論している点にあります。

3. 本研究の着想は、文脈を共有する言葉の意味を表現するように設計された分布意味論を用いた引き合いに出されるGNBRデータセットの評価に由来しています。本研究は、生物医学文献からの知識抽出と知識グラフ構築に関する研究に位置づけられます。

4. 本研究では、化学物質と遺伝子/タンパク質の間の関係について評価し、これをEvotecの「Nexus」データベースの地上の真実と比較しました。この結果、「抑制」「結合」「アゴニズム」「アンタゴニズム」などの関係クラスに対するAUCが0.50、ROC曲線のAUCが0.71であることが明らかにされました。さらに、例えば「inhibits(抑制する)」などの特定の関係クラスに対して高い閾値を設定することで、構造化されたデータセットには報告されていない高い信頼性のある三つ組を得ることができると結論付けました。

5. 本研究の有効性は、提案した評価手法による「Nexus」データベースとの比較により確認しました。単語や文の意味の比較を通じてGNBRと「Nexus」データベースの間の照合を行い、抽出した三つ組の正確さを確認しました。

いいなと思ったら応援しよう!