Mining Patents with Large Language Models Demonstrates Congruence of Functional Labels and Chemical Structures
本研究の学術的背景や問いは、化学構造から化学機能を予測することで、これは新薬の発見や新素材の開発における重要な目標です。特に、化学特許情報を大規模言語モデルに適用し、化学的機能に関する情報を統合し活用することに焦点を当てています。
本研究の目的と独自性と創造性は、ChatGPTを用いた特許の要約と単語埋め込みのラベルクリーニングパイプラインを用いて、化学機能(CheF)データセットを作成し、化学構造と機能の間に強い関連性を見つけることです。
本研究の着想は、化学特許にはかなりの量の化学機能に関する情報が含まれているにもかかわらず、これまでこれらの情報は充分に利用されていなかったと言う問題点から生まれました。これは主に、高品質な機能ラベルを抽出することが現実的でなかったためです。
本研究では、CheFデータセットを作成し、機能ラベルと化学構造空間との間に強い関係があることを発見しました。さらに、機能ラベルの同時出現グラフには頑健な意味構造があること、これにより化合物間の機能的な関連性を調査できることを明らかにしました。また、我々のモデルをCheFデータセットで訓練することで、新たに化学物質に機能ラベルを割り当てることができ、承認されたC型肝炎の抗ウイルス薬を推定したり、特許では未公開の抗ウイルス機構を発見したり、セロトニンに関連した可能性のある薬剤を特定することができました。
本研究の有効性は、作成したCheFデータセットでモデルを訓練し、新たな化合物に対して機能ラベルを割り当てて評価を行いました。また、C型肝炎の抗ウイルス薬を後方予測することに成功し、特許では明らかにされていない抗ウイルス機構を明らかにすることができました。
この記事が気に入ったらサポートをしてみませんか?