Geometry-aware Line Graph Transformer Pre-training for Molecular Property Prediction
本研究の学術的背景と問い:
ディープラーニングによる分子の性質予測が近年注目を集めています。分子のラベル付けデータが少ないため、ラベル無しのデータから汎用性のある分子表現を学習するための自己教師付き学習法に対する興味が増しています。また、分子は通常モデリング時に2Dのトポロジカルグラフとして扱われますが、その3Dの幾何学的な形状が分子の機能を決定する上で非常に重要であることがわかっています。そこで、本研究の学術的問いは、「2Dと3Dの両方の情報を組み合わせて分子の表現を向上させる自己教師付き学習フレームワークは可能か?」となります。本研究の目的と独自性・創造性:
本研究の目的は、「Geometry-aware line graph transformer (Galformer) pre-training」という、2Dと3Dの情報を組み合わせて分子の表現学習を強化する新たな自己教師付き学習フレームワークを提案することです。具体的には、分子のトポロジカルな情報と幾何学的な情報をエンコードするためのデュアルモダリティライングラフトランスフォーマーのバックボーンを設計します。ここに独自性と創造性があります。本研究の着想と位置づけ:
分子データのラベリングが難しく、データが少ないことへの解決策として自己教師付き学習の方法が注目を集めています。また、2Dのみならず分子の3Dの情報が分子の性質予測に影響を与えるという先行研究から着想を得て、2Dと3Dの情報を効果的に組み合わせて学習するモデルを提案しています。本研究で明らかにしたこと:
トポロジカルと幾何学的情報の両方をエンコードするGalformerを設計し、それを利用して分子の性質をより精度良く予測することができることを示しました。また、ラベル無しの分子から2Dと3Dの知識を抽出するための2つの補完的な事前学習タスクを考案しました。本研究の有効性の検証方法:
Galformerを12の性質予測ベンチマークにおける6つの最先端のベースラインと比較しました。分類タスクと回帰タスクの両方でGalformerがすべてのベースラインを上回る性能を示し、その有効性を証明しました。