3D Denoisers are Good 2D Teachers: Molecular Pretraining via Denoising and Cross-Modal Distillation
1. 本研究の学術的背景は、分子特性予測のために大量の非ラベルデータから分子の表現を事前に学習することの重要性にあります。この分野では、2Dグラフに基づく分子の事前学習アプローチが多数存在しますが、これらのメソッドは統計的に有意な予測性能の向上を示すのに苦労しています。そこで、核心をなす学術的な問いは、「3Dの構造情報を利用して分子の表現をより効果的に学習する方法はないか?」となります。
2. 本研究の目的は、2Dグラフエンコーダーを3Dデノイザーからの表現により教師あり学習させることにより、3Dの構造情報を2Dの形式で効率的に表現し、利用する新たなフレームワーク、D&Dを提案することです。このフレームワークは、デノイジング(雑音除去)とクロスモーダル知識蒸留という2つのステップを組み合わせて実現されています。
3. 現在の研究動向では、2Dグラフに基づく分子の事前学習アプローチの限界が明らかにされており、3Dの構造情報を利用した新たなアプローチが求められていました。しかし、3D情報を必要とするこれらの新たな手法は、大規模で計算コストが高いという問題がありました。そこで本研究では、この問題を克服し、効率的な分子表現学習を可能にするD&Dという新しいフレームワークを提案しています。
4. 本研究では、提案したD&Dフレームワークが、2Dグラフに基づいて3D情報を推論することが可能であり、その結果他の手法と比べて優れた性能とラベル効率を示すことを、実世界の分子特性予測データセットを用いて実験的に示しました。
5. 本研究の有効性は、実世界の分子特性予測のデータセットを用いた実験によって検証されました。具体的には、D&Dによって訓練されたグラフエンコーダーが2Dグラフから3D情報を推論でき、他のベースラインと比較して優れた性能とラベル効率を示すことが確認されました。