見出し画像

タンパク質の分子言語モデル - それとも拡散?

5,224 文字

コミュニティの皆様、こんにちは。AIが存在する理由、それは医療における画期的な進歩、材料科学における新たなブレークスルー、バイオテクノロジーにおける新薬開発、そして人々の生活を改善する新しい医療です。今日は特に、最新のAI研究におけるタンパク質設計について見ていきましょう。
現在、このペーパーについて多くの注目が集まっていることは承知しています。リンクはこちらです。タイトルは「タンパク質の分子言語を解読する」というもので、私たちのタンパク質、つまり分子機械の分子言語を解読し解釈する特別なタンパク質言語生成モデルに関するものです。
システムの美しい概要と説明があり、DPOやRAGなど私たちが知っているものがあります。これは古典的な構造です。シーケンスコンプレッサーとシーケンスアライナーを見ると、クロスアテンション、フィードフォワードモジュールという馴染みのある構造が見られます。しかし、誰も話していない全く異なるアプローチがあると思います。
2024年5月末に発表された「拡散確率モデルとそのバイオ分子への応用に関する調査」というペーパーを覚えていますか? これは重要な論文で、マルコフ連鎖モンテカルロシミュレーションに関するもので、大きな影響を与えました。
何が起こっているのかを理解するために、オートエンコーダー構造、ノイズ付加プロセス、ノイズ除去プロセスについて説明したこのビデオをお勧めします。クルバック・ライブラー発散の数学的関数を用いた変分オートエンコーダーの説明にも興味があるかもしれません。これは拡散が行われる直前のものでした。
そして現在、私たちにはAI拡散モデルがあります。ご存知の通り、前方拡散プロセスと逆拡散プロセスという2つの補完的なフェーズがあります。このビデオでは、拡散モデルのためのスピン類を用いた新しい数学的実装について見ていきましたが、これは数ヶ月前に起こったことです。
しかし今日は、タンパク質設計における拡散モデルを見ていきましょう。なぜなら今や、拡散モデルだけでなく、AIエージェント、メモリを持つエージェント、特定のツールを使用した関数呼び出しができるエージェントがあり、これらのツールを活用していくことになるからです。
最新の知見では、エネルギー関数の統合が本当に重要になってきています。拡散モデルは、古典的な熱力学的理解から導かれたこの位置エネルギー関数を組み込むことができ、物理的に意味のある構造に向けて逆拡散プロセスを導くことができます。
例えば、モデルはPARIS相互作用ポテンシャルなどを使用して、生成された構造が熱力学的安定性と一致することを確保することができます。私たちは物理学の理論的な洞察を適用しており、これが分子系の動的平衡を支配しています。
したがって、新しい拡散モデル、新しいAIモデルを特定のツールと結合することで、そしてこれらのツールは分子動力学シミュレーションですが、アカデミアの非常に賢明な研究者たちは、3次元タンパク質構造における折りたたみ経路や他の変化などの時間発展的な挙動を予測することができます。
もちろんハイブリッドアプローチもありますが、それは本題から外れます。しかし、このタンパク質設計は最小エネルギー状態を達成することだけではありません。特定の文脈で機能的な柔軟性のためにエントロピーを最大化することができ、これも本当に重要です。
なぜなら、機能的なタンパク質について考えると、拡散モデルでエントロピー寄与を計算する場合、単一のタンパク質3D構造ではなく、異なる構造のアンサンブルを生成することができ、これは自然界でリアルタイムで観察されるものとまさに一致するからです。
したがって、AIシミュレーションからタンパク質構造のアンサンブルを生成する場合、これは実世界の機能的なタンパク質ダイナミクスで私たちが求めているものそのものです。幾何学的に妥当なだけでなく、熱力学的にも実現可能なタンパク質を設計したいと考えています。これらのタンパク質は安定であるべきで、先ほど話したように熱力学的制約を統合すべきです。
お気づきの通り、私たちは計算生物学について深く話しており、これは新規タンパク質の開発に関するものです。タンパク質の特定の構造的および機能的特性を求めており、それについて見ていきます。構造的特性と機能的特性は、AIモデルでシミュレーションするのは簡単ではありません。
この問題は本質的にNP困難です。なぜなら、タンパク質のサイズが大きくなるにつれて、すべてのタンパク質構造の組み合わせ空間が指数関数的に増大するからです。したがって、私たちは実際の問題に直面しています。
では、2025年1月7日現在の解決策について見ていきましょう。医療、材料科学、バイオテクノロジーのためのAIによるタンパク質設計です。なぜ医療、新薬、新しい治療法、材料設計、新規バイオ材料、バイオテクノロジーについて考えるのかと疑問に思うかもしれません。
私たちは産業プロセスのための酵素を最適化する必要があり、これは食品加工から産業プロセスで想像できるあらゆるものまで及びます。酵素は更なる最適化において重要な役割を果たしています。
少し数学的な話をしましょう。これは非常に重要だからです。タンパク質構造と機能の物理的現実シミュレーションの鍵は不変性です。なぜなら、タンパク質構造は既にご覧になったかもしれませんが、3次元空間に存在するからです。
したがって、すべてのAIモデルは起こりうる空間的変換を認識する必要があります。さらに、タンパク質は液体溶液中に存在します。不変性は単純に、タンパク質構造を回転、並進、反転させた場合、モデルの出力も同じように変換されるべきことを意味します。
大学の数学を思い出してください。純粋数学のO(3)群があります。この群は回転、反転、並進に関するすべての関数で構成されています。R3等不変な3Dモデルは、生成されたタンパク質構造の物理的妥当性をより良く保持し、タンパク質フレームを扱う場合に特に有用です。
しかし、これについては後で詳しく説明します。私たちが実際に使用している別の重要な群は、SE(3)特殊ユークリッド群です。これは、特定の物体の体積を保存する剛体変換(回転と並進)を指します。
ほとんどのモデルはこの特殊E(3)群を使用していますが、一般的なE(3)群に対するAI拡散モデルの開発は、今日でもなお課題となっています。
シーケンスモデルと構造モデルについて話しましたが、シーケンスモデルを見てみましょう。多くの数学的および理論物理学的な近似があります。トランスフォーマーベースの数多くのシーケンスレベル生成モデルがありますが、目的はもちろん新しいタンパク質配列の書き方を学ぶことです。
これらのモデルは素晴らしいですが、どのように改善できるでしょうか。タンパク質構造についても同じことが言えます。ここには1、2、3つの異なる生成モデルがあり、これらは不変性を本質的な特性として使用しています。
タンパク質構造とタンパク質配列データの基礎となる複雑な確率分布を学習することで、設計された特性を持つ新規タンパク質をすべての産業セクターのために生成したいと考えています。特定のユースケースがあり、これらの特性を設計したいと考えています。
新しい医薬品や本当に個別化された特定の実装を開発できることを想像してください。一般的に、深く掘り下げてみると、離散版の非ノイズ化拡散確率モデル(DDPM)があります。
そして積分を考えると、連続版があり、これをスコアベース生成モデルと呼んでいます。離散化を行えばDDPMになり、連続フローSGMを目指す場合、数学的にはかなり解決されています。
これは簡単です。連続形式では、次の確率微分方程式があります。標準ウィーナー過程を持つ遷移分布、パラメータの周辺分布を保持する可逆SD確率流れ常微分方程式があります。論文を見せましょう。すべての詳細が付録Bにあり、トピックが初めての方には素晴らしい説明が提供されていることを強くお勧めします。
この論文が今日のメインの論文です。この論文をお見せしたいと思います。なぜなら、今日何が起こっているのかを説明する上で大きな可能性があると思うからです。いくつかの素晴らしい洞察を提供しており、タンパク質設計とタンパク質工学の最新技術について詳細に説明する複数の付録があります。
理論物理学からの単純な熱力学から始まり、自律的なタンパク質工学に向けたバイオ分子生成のための拡散モデルを扱っています。自律的という言葉には疑問符をつけたいと思いますが、アイデアは理解できます。
素晴らしいですね。新しいバイオ分子化合物構造を生成できます。理論物理学からの洞察を取り入れ、数学の群構造、対称性、不変性に戻ります。これが私たちのやり方であり、扱っている複雑さは本当に高いことがわかります。
著者たちについてですが、パリ大学、ロンドン帝国大学コンピューティング学部、チリのコンピュータ工学部、ドイツのライプニッツ研究所生物有機化学部、インドのバンガロール国立研究所があります。
素晴らしいので、ぜひご覧ください。これは2025年1月5日、私にとってはたった2日前にarXivで公開された論文です。タンパク質設計に関する論文で、特にタンパク質設計、新しいタンパク質の構造的および機能的属性のAI開発に興味がある方にお勧めします。
お話ししたように、私たちのタンパク質はもちろん機能的な3次元構造を持っています。熱力学による洞察を統合し、エネルギー地形の全体的または局所的な最小値を見つけます。アミノ酸、溶媒分子、その他の環境因子間の熱力学的相互作用があります。
溶液中で、拡散AIモデルを適用すると、タンパク質設計は暗黙的または明示的に、エネルギー最小値に一致する必要のある構造を生成します。安定性を確保します。熱力学的原理がモデルを導き、設計において熱力学的に実現可能な構造を持つようになります。
新しいタンパク質は安定でなければならないという条件があります。エンタルピーとエントロピーのバランスがあり、その他の熱力学的制約があります。素晴らしいことに、これらについて配慮することができます。
さらに、タンパク質-リガンド相互作用やタンパク質-リガンドの共設計という他の重要な領域でも使用することができ、そこでは拡散モデルを使用できます。素晴らしいですね。
今日お見せしたメインの論文から、これは素晴らしいものです。現在、どれくらいの拡散モデルがあるかを示しています。56か58、56の異なるモデルがあり、どのモデルがどのアイデアに属し、どのように実装されているかを詳細に説明しています。これは素晴らしいことです。
しかし、これについて本当に学びたい場合は、付録Bをお勧めします。L関数、クルバック・ライブラー発散があります。2つの分布とクルバック・ライブラー発散から始まり、合理的なオートエンコーダーの損失がこれによって制限され、これが展開されています。
条件付き拡散モデルがあり、私たちが使用する条件付きスコア関数の数学的な導出を本当に美しく詳細に説明しています。さらに付録Dでは、置換不変性と置換等不変性の関係を美しく説明しており、これを計算で使用します。
また、計算で重要なO(3)、S(3)、E(3)、SE(3)という異なる数学的群の適用についても説明しています。
したがって、シーケンスと構造のための異なるモデルの簡単な概要を示しました。もし少し詳しく知りたい方のために、ここに説明があります。この分野で働きたい、AIを新薬開発や産業プロセスのための新しい酵素開発などに応用したいと考えている方にとって、これは絶対にホットなトピックです。素晴らしいことです。
今日お見せした論文には限界があることも明確にしましょう。私たちのタンパク質は溶液中にあると言いましたね。したがって、今日あるものを統合することは素晴らしいですが、もちろん新しい課題が待ち受けています。
時間依存モデリングフレームワークを組み込むことで、溶液自体の変化や、コンピュータシミュレーションにおける異なる環境パラメータなど、折りたたみ経路のような動的挙動についてさらなる洞察が得られる可能性があります。
将来のタンパク質設計方法について、AIリサーチの大きな領域が待っています。このビデオを楽しんでいただけたと思います。簡単な概要といくつかの興味深い文献を提供できたと思います。
20分のビデオでは詳細に入ることはできませんが、これらすべての事実があなたの実装を待っています。素晴らしいアイデアがあれば、このチャンネルを購読してください。次のビデオでお会いしましょう。

いいなと思ったら応援しよう!