Regression Transformer enables concurrent sequence regression and generation for molecular language modelling

自然科学における生成モデルの進歩は目覚しいものがあるが、その制御性は依然として困難である。分子やタンパク質の生成モデルに根本的に欠けているのは、関心のある連続的な特性を反映できる帰納的バイアスである。そのため、我々は回帰を条件配列モデリング問題として抽象化する手法である回帰変換器(RT)を提案する。これにより、マルチタスク言語モデルの新しい方向性を導入し、シーケンス回帰と条件付きシーケンス生成をシームレスに橋渡しをする。私たちは、名目スケールの学習目標を用いたにもかかわらず、低分子、タンパク質、化学反応の物性予測において、RTが従来の回帰モデルの性能と同等かそれ以上であることを実証しました。さらに、同じモデルを連続的な特性でプライミングすることで、部分構造に制約のある特性駆動型分子生成ベンチマークにおいて、専門的なアプローチを凌駕する競争力のある条件付き生成モデルを得ることができました。この二項対立のアプローチは、交互学習方式によって促進され、例えば、反応収率を最適化するために、モデルが所望の特性制約に基づいてシード配列を装飾することを可能にします。RTは、生化学の予測タスクと生成タスクに共同で取り組むことができるため、化学やタンパク質空間の特性駆動型局所探索に応用できると期待される。このようなマルチタスクアプローチは、材料設計における基礎モデルへの道を切り開くだろう。

この記事が気に入ったらサポートをしてみませんか?