MolXPT: Wrapping Molecules with Text for Generative Pre-training
1. 本研究の学術的背景,研究課題の核心をなす学術的「問い」は?
→ 本研究では、自然言語処理において大きな成功を収めているGPT(Generative pre-trained Transformer)を、分子モデリングに適用することを提案しています。そのため、膨大な数の医学論文コメントからSMILESと呼ばれる分子のシーケンス表現を、テキストに挟み込むことで、テキストと分子の言語モデルを統合できるようにしました。
2. 本研究の目的及び学術的独自性と創造性は?
→ 本研究の目的は、SMILES表現とテキストを融合させたMolXPTという統合言語モデルを提示し、MoleculeNetにおいて分子の性質予測において強力なパフォーマンスを発揮すること、およびテキスト-分子翻訳問題においても性能が高く、Fine Tuningなしにゼロショットの分子生成を可能にすることです。
3. 本研究の着想に至った経緯や、関連する国内外の研究動向と本研究の位置づけは?
→ 分子設計にNLPを活用する研究は以前からあるものの、非常に繊細であることが必要なにもかかわらず、パラメーターチューニングが困難なことが多くあった。そして、本研究では、GPTのような強力な自然言語処理技術を導入し、膨大な量の情報を処理することが可能になり、より高い性能が発揮されるようになりました。
4. 本研究で何をどのように、どこまで明らかにした?
→ 本研究では、SMILES表現とテキストを融合したMolXPTという統合言語モデルを提案し、MoleculeNetにおいて強力なパフォーマンスを発揮することを示しました。テキストと分子が混在するシーケンスにより高い性能があり、GCN、RNN、Seq2Seq、GNNなどの比較手法と比較して高い精度が認められました。また、MolXPTによる分子生成のゼロショット実験でも、SMILES表現が使用された既存の手法と比較して、より高い精度が得られました。
5. 本研究の有効性はどのように検証した?
→ 本研究では、MoleculeNetにおける実験により、MolXPTが従来手法よりも高い性能を発揮することを示しました。また、SMILES表現を用いたゼロショット実験において、既存手法と比較してより高い精度が得られたことが示されました。