生成分子動力学

2024年10月10日 06:40

30,818 文字

YouTubeでのテスト。
YouTubeでのテスト。
YouTubeでのテスト。
YouTubeでのテスト。YouTubeでのテスト。テスト。テスト。
テスト。テスト。よし。YouTubeで動いてるな。ラフル、サラ、マイケルも何か言うてたと思うで。ほんなら、Xでもライブ配信できてるはずや。ちょっと確認したろ。プロフィール。Xでテスト中。ほな、Xでも動いてるな。よっしゃ、全部のストリームが動いてる。ちょっと水飲んだろ。
今日は皆さんに違うもんを用意したで。ディジュリドゥやないけど。これはショファーホーンいうんや。ヤギの角みたいなもんや。これ、ディジュリドゥより吹くの難しいから、何回か試さなあかんかもしれん。それに、もっと高音やから...ほんまに高音になると思うで。
めっちゃ甲高い音やな。よし、また別のフープーストリームの始まりや。今日はちょっと自分の専門外のことをやってみるわ。「分子動力学の生成モデリング」いうやつや。これはうちのDiscordチャンネルのメンバーの一人が勧めてくれたんや。かなりええらしいで。今日はそれを掘り下げて、生成AIの技術がどうやって分子動力学、つまり化学と生物学に応用されてるかを見ていくで。まあ、生物学や化学の専門家やないから、その方面に詳しい人は厳しく判断せんといてな。ただ学ぼうとしてる奴やから。
キャプテン・フープー、乗船してくれてありがとう、相棒。サガルとソタキとジャマルもおるな。サガルから早速質問や。「AIは我々みたいなコーダーを置き換えるんか、それともただのツールなんか？この市場でどう生き残ったらええんや？」
まあ、ソフトウェアエンジニアリングは10年以上自分の仕事やったからな。結局、人はソフトウェアエンジニアリングに対して金払うてくれるわけや。だから、AIツールがどんどん良くなっていくの見てると、根本的に置き換えられるんちゃうかって不安になるのはわかるで。でも、考え方を変えなあかんのや。
プログラミングできん人は、コーディングエージェントに何をしてほしいかを伝えるのも難しいやろ？だから、AIがどんどんコーディングが上手くなっていくにつれて、人間のコーダーとしての個人の力はむしろ増していくんや。
今、ソフトウェアプロジェクトに取り組む時、複数の若手開発者が下についてるみたいな感じやねん。ソフトウェアエンジニアリングの知識があるからこそ、このソフトウェアエージェントをうまく管理・制御できるんや。だから、「AIに置き換えられる」って否定的に考えるんやなくて、「AIによって10倍の仕事ができるようになる」って考えた方がええで。そうすると、結果的に10倍価値のある人間になれるってことやねん。
だから、ツールに慣れていくんや。そしたら誰よりも多くのことができるようになる。結局のところ、人々はソフトウェアのことで君のところに来るやろ。君はソフトウェアエージェントへのインターフェースになるんや。
農業の例で考えてみ。機械化された農業が出てきた時、手作業で農業してた人は脅威に感じたやろ。「うわ、この機械は俺よりずっと効率的に農業できるやん。俺、終わったわ」って思ったかもしれん。でも実際は、農業の知識はまだまだ持ってるわけや。その知識を持ってない人は機械を使いこなせへんのや。
機械を手に入れたら、突然10倍の土地を耕せるようになるんや。いつ種をまくか、いつ水をやるか、土壌がええか悪いか、この植物はここで育つか、みたいな農業の知識全部が活かせるようになるんや。だから、AIに置き換えられるって心配せんでええ。むしろAIを使って、一人で軍隊みたいにいろんなことができるようになるんや。
ほな、この論文に戻ろか。これ2024年9月26日に出たMITの論文や。ここにオープンレビューを持ってきたで。こういう論文は、科学的なプロセスの一環として査読を受けなあかんのや。これは基本的に匿名の査読者がこの論文を評価して、スコアをつけるんや。
分子動力学みたいな特定の分野について、俺みたいによう知らん人間がこの論文の質を判断するのは難しいから、こういうレビューを見るのがええんや。時々このレビューがひどいっていうミームもあるけど、ここ見てみ。評価9：採択された論文の上位15%、強く採択。評価8：採択された論文の上位50%。つまり、この分野の専門家である査読者が、かなり斬新で面白いって言うてるわけや。「斬新で自明でない仕事で、非常にわくわくする。影響力が高い可能性があり、簡単に採択に値する」ってな。
ほな、俺も納得やな。うちのDiscordで誰かがええ論文やって言うてるし、査読者もええ論文やって言うてる。生成AIも使ってるし、見てみようや。
まず要約から始めよか。分子動力学は微視的現象を研究するのに強力な手法やけど、計算コストが高いから、深層学習ベースの回路モデルの開発に大きな関心が集まってるんや。分子軌跡の生成モデリングって何やねん？分子軌跡ってなんやろ？
ここにGIFがあるで。これが分子や。時間の経過とともに特定の状態になってるのが分かるやろ。時間経過に伴う状態の変化が軌跡なんや。この分子には軌跡があって、このある種の結合部位にフィットしようとしてるのが見えるやろ。
もう一つ例があるで。これはボールとスティックのモデルや。ちょっと誤解を招くかもしれんけど、時にはこんな風に表現されることもあるんや。これも分子軌跡の一種や。この分子が変化して進化してるのが見えるやろ。構造が時間とともに軌跡を描いてるんや。
もっと凝ったのを見せたろか。これは一群の分子や。これは実際、べん毛の回転を引き起こす仕組みやと思うで。細菌が液体中を動き回る時、小さなべん毛を回転させるんやけど、これがその分子メカニズムや。
この論文は基本的に、こういった分子軌跡をトランスフォーマーやその他の生成AIアーキテクチャで生成することについてのもんや。適切に選んだ軌跡のフレームを条件付けるんやけど、これはどういう意味なんやろ？
分子の軌跡をモデル化したり生成したりするのにはいろんな方法があるんや。例えば、フォワードシミュレーションやったら、分子の静的なフレーム、つまりある時点のスナップショットから始めて、1秒後、2秒後、3秒後、4秒後がどうなるかを知りたいわけや。1つのフレームから始めて、次のフレームを生成していくんや。トランスフォーマーが単語の列やトークンの列を与えられて次のトークンを予測するのと同じような感じやな。
補間は最初のフレームと最後のフレームがあって、その間のフレームを埋めていくんや。これはマスクモデリングみたいなもんや。最初と最後のフレームがあって、残りを埋めるんやけど、中間が分からん時にも使えるんや。例えば、分子の初期状態があって、最終的にこの特定の結合部位にフィットしてほしいっていう状態があるとする。でも、そのフィットした位置や状態にどうやって到達するんかが分からんわけや。
アップサンプリングは補間と似てるけど、中間状態の一部も持ってるんや。インペインティングは軌跡全体は持ってるけど、特定のサブコンポーネントの軌跡がないって場合や。例えば、測定や計算の仕方で、外側の動きは分かるけど内側の動きが分からんって時があるかもしれん。これを使えば、分子の特定のサブチェーンの状態を生成できるんや。
3次元座標の軌跡があって、Tフレームの列があって、それぞれのフレームにL個の残基があるんや。残基ってのは基本的にこの小さな塊のことや。
離散化するときは言語みたいなもんで、トランスフォーマーモデルに言語を入力するには小さな塊に離散化せなあかんのや。それがここではこういう小さな単語の塊みたいなもんになるんや。分子動力学では、宇宙がすでに明らかな形の離散化を作ってくれてて、それがこの小さな塊なんや。
正確に1つの残基が何なのかは分からんけど、たぶんこの1つか2つの小さな部分やと思うで。これが1つの残基で、これが1つの残基、これがもう1つの残基、これがまた別の残基みたいな感じやな。こうして問題を基本的に生成AIにとって馴染みのあるものに分解したんや。
Tフレームの列があって、それぞれに残基があるわけや。残基は利用可能な全ての残基の中から1つを選ぶんや。正確に何個の残基があるかは分からんけど、たぶん2万個か10万個くらいの残基があるんちゃうかな。でも、限られた語彙の中から選ぶっていう点では同じや。
分子系の一部を条件付けして、インペインティングでは動的な条件付き分子設計への最初のステップも示すんや。軌跡や分子のダイナミクスを予測できるようになったら、特定の軌跡を持つ分子を設計し始められるかもしれんな。
例えば、何か薬を設計してるとして、その薬が何をせなあかんかが分かってる場合があるやろ。この結合部位に入って、この小さな部分を押し上げるみたいな感じやな。あるいは、これが回転せなあかんって分かってるけど、どう回転するかが分からんって場合もあるやろ。そういう時にここからここまでの補間をして、何が起こってるかをより根本的に理解できるんや。そうすれば、この特定の用途に合わせてより適した分子を設計できるかもしれんな。
こういうものをモデル化できるようになったら、設計プロセスにフィードバックできるんや。ここで重要なのが計算コストっていう考え方や。後でもう少し詳しく触れるけど、分子動力学に関して新しいものは何もないんや。
人々は時間をかけて分子動力学軌跡を予測・生成するためのいろんな技術を考え出してきたんや。でも、それには常に非常に高い計算コストがかかってきた。だから、生成AIを使うことのメリットは、これをもっと効率的にできるってことなんや。
もっと効率的にできるようになったら、もっと多くの可能な軌跡や分子を探索できるようになる。そうすれば、求める解をより良く見つけられるんや。
MDは時間スケールが大きく離れてるせいで計算が大変なんや。積分ステップと関連する分子現象の間の時間スケールが大きく離れてるからな。
分子動力学の深層学習回路モデルの学習は、深層生成モデリングの活発な研究分野になってきたんや。MD-genっていうのがこの論文のことやな。分子動力学の生成版ってことや。深層学習を使った分子動力学のこと。MDベースの高速汎用サロゲートモデリングのための斬新なパラダイムで、シミュレーションした軌跡の直接生成モデリングに基づいてるんや。
完全な軌跡をエンドツーエンドで生成モデリングするんや。3D分子構造の時系列として見るんや。
4つの異なるタイプがあるんや。フォワードシミュレーション、補間、アップサンプリング、インペインティングや。ちょっと面倒くさいのはこれらの用語が生成AIの世界でも似たような意味で使われてるってことやな。マスクモデリングを補間って呼んでるけど、基本的には同じ考え方や。
これを2次元配列のSC3不変トークンに対する生成モデリングタスクとして定式化するんや。残基フレームやポイントクラウドじゃなくてな。SC3不変トークンって何やねんって話やけど、ちょっと飛ぶけど説明するわ。
n個の原子を持つ分子系があるとしよう。時系列のxi分子構造に対する生成モデルを学習するのが目標や。各分子の各原子が3D空間のどこにあるかを示す3nがあるんや。x1が時間1の分子の位置、x2が時間2の位置、みたいな感じでxtまで続くんや。軌跡の長さtは自分で決めるんや。これは短いペプチドや単一鎖タンパク質の軌跡やから、小さいものを使ってるんや。まだまだ初期段階やな。ここに出てくる例は全部小さな分子ばっかりや。
化学的な特徴はアミノ酸配列や。トークンと似てて、限られた語彙のアミノ酸の配列があるんや。アミノ酸は20種類しかないんやって。20個の選択肢があるってことやな。
SC3ベースのパラメータ化を採用してて、各アミノ酸残基の座標は回転と並進で記述されるんや。各xtl、つまり時系列xtの各フレームは、この回転と並進で記述されるんや。このrtがSC3やねん。
SC3って特殊ユークリッド群3のことで、これは群論の中のリー群っていう数学的な構造の一種なんや。群論って聞くと怖そうやけど、実はそんなに怖くないで。生物学的な考え方を数学に適用したみたいなもんや。
例えば、昆虫を研究する人を想像してみ。彼らは基本的に物事をグループ分けしてるんや。「これらはカブトムシのグループや」「これらは蝶のグループや」「蝶の中でもこれは蛾のグループや」みたいな感じで。世の中にあるものを見て、小さなグループに組織化しようとしてるんや。そうすれば「このグループは全てこの特徴を持ってる」「このグループは全てこの特徴を持ってる」って言えるようになるんや。
群論も同じで、数学的な概念やアイデアを異なる特性を持つグループに組織化するんや。その中にリー群があって、そのさらに中にSC3があるんや。SC3は基本的に3D空間での回転と並進のことや。
ChatGPTに聞いてみたら、SC3はこんな風に説明してくれたで。特殊ユークリッド群3は群やから、閉包性、結合法則、単位元、逆元性みたいな特定の数学的性質を満たすんや。SC3の要素は回転と並進を含む変換として表現できるんや。
基本的にSC3はこのR、3×3の回転行列と、この3×1の並進ベクトルT3で表されるんや。
つまり、この小さなアミノ酸の鎖や配列を表現してるんや。それに7つのねじれ角度もあるんやけど、重要なのは、これらの分子を前の分子からの回転と並進として定義してるってことや。「ほな、ここに1の並進があって、ここには回転はないな。ここにも並進があって、ここは0度の回転や。そしてここに120度くらいの回転があって、何かの並進がある」みたいな感じやな。
この鎖が3D空間でどう見えるかを、各要素間の特定の回転と並進の蓄積として記述する方法なんや。これには問題もあるけど、後で話すわ。
ほな、上に戻ろか。これをSC3不変トークンの2次元配列に対する生成モデリングタスクに変換したんや。スケーラブルな補間トランスフォーマーを使うんや。基本的にはただのトランスフォーマーやな。
後で見るけど、より長い軌跡を扱うために、MambaやRNNっぽいHyenaってアーキテクチャを使ってるんや。トランスフォーマーには注意機構のせいで二次的な問題があるからな。計算量とメモリ複雑性が二次的に増加するから、トランスフォーマーを使うとフレーム数や配列長が制限されるんや。
HyenaやMambaみたいなものを使えば、もっと長い配列長を扱えるんや。つまり、より長い軌跡をモデル化できるってことや。
未見のテストペプチドでMDGenを評価したんや。任意の対のメタ安定状態間の現実的な遷移経路を提供して、粗い時間ステップの軌跡のサンプリング閾値以下の高速な動的現象を回復するんや。
表現されてる分子はmRNAなんか？ここでは特にmRNAについては言及してないと思うで。短いペプチドと単一鎖タンパク質だけについて話してるんや。生物学に詳しくないから、mRNAが短いペプチドや単一鎖タンパク質に含まれるかどうかは分からんわ。RNAの配列の中には小さいものもあるやろから、短いmRNA配列にはこれが使えるかもしれんな。でも100%確実には答えられへんわ。ごめんな。
ただタンパク質だけやって。mRNAは大きすぎるか長すぎるか複雑すぎるかで、これには含まれへんみたいやな。
ここで俺がこの論文に最初に疑問を持った部分があるんや。ロボティクスの背景から来てるから、SC3や運動学的連鎖にはかなり馴染みがあるんや。ロボットアームがあるとしたら、基本的にはリンクがあって、それぞれのリンクが他のリンクに対して回転や並進をするわけや。運動学的連鎖、つまり多くの異なるリンクを持つロボットアームは、同じように回転と並進で表現できるんや。
でもこれはロボットにはうまく機能するんや。ロボットは巨視的な物体やからな。分子やペプチドにも同じことが言えるかどうかは分からんのや。これが俺の考えや。
小さくなると量子効果を考え始めなあかんのや。それはどういう意味かっていうと、古典的な世界、つまりロボットや人間くらいの大きさの世界では、粒子がこの壁にぶつかったら跳ね返るだけや。F=maみたいな標準的な物理方程式で表現できるんや。回転や並進はその世界ではうまく機能するんや。
でも量子の世界に入ると、全てを波動関数みたいなもので考え始めなあかんのや。そこには実際の粒子はなくて、粒子がある可能性のある場所の確率みたいなもんがあるんや。すごく奇妙な効果が起こり得るんや。
例えば、電子があるとする。これは電子トンネリングって呼ばれるもんや。粒子がこの壁にぶつかるかもしれん。壁にぶつかった時、粒子が実際に壁の向こう側にいる小さな確率があるんや。
突然、電子が壁をトンネルする非ゼロの確率が生まれるんや。これは今我々が住んでる粒子のスケールでは全然意味をなさへんな。人間やロボットくらいの大きさのものが壁をすり抜けることはありえへんやろ。でも小さな世界ではこういうことが起こるんや。
実世界でもこういう効果の例があるんや。光合成がそうや。光合成、つまり太陽光からエネルギーを作り出すプロセスは、植物がグルコース分子を作るために行ってるもんやけど、これも小さな分子のスケールで起こってるんや。実際にそこには量子効果があるんや。
例えば、ここに論文があるで。「植物プランクトンは量子コヒーレンスを使って低光環境で生き延びる」。植物プランクトンは、いくつかの量子化学的なエネルギー節約現象をオンオフすることで、極めて低レベルの太陽光を利用できることが示されてるんや。
基本的に、植物が光を意味をなさないはずの方法で跳ね返らせる方法を見つけ出したってことや。これによって、より多くのエネルギーを収穫できるんや。
ほな、俺の素人の疑問はこうや：これは分子にも当てはまるんやろか？分子がここからここに移動する時、それが単に回転と並進で表現できる経路やって仮定するのは妥当なんやろか？このスケールでは奇妙なことが起こってへんのやろか？
分子が単に回転して、そこに到達するんじゃなくて、違う状態の間でバウンドするみたいな、トンネリングみたいな効果はないんやろか？そういう奇妙な量子的なバウンドや振動は、この基本的な仮定には合わへんのちゃうかな。分からんけどな。
伝統的な分子動力学はすべてをニュートン物理学で近似してるんや。MD シミュレーションは基本的にニュートン力学で、何かの力場やポテンシャルがあるんや。
そやな。たぶん力場ってのは、分子動力学の古典的なやり方を表現するのにええ方法かもしれんな。ここに背景の部分があるで。分子動力学の目的は運動方程式を積分することや。ここにちょっとタイポがあるけど、「is the integrate」じゃなくて「is to integrate」やな。ちょっと紛らわしいな。
ここに運動方程式があるんや。X二重ドットがあるやろ。これは加速度や。MIは質量やから、質量掛ける加速度はこのUの勾配に等しいんや。Uはポテンシャルエネルギー関数か力場や。
基本的に、この式はF=MAってことや。MA=Fやな。
これらの分子は何かの力場の中にあるんや。その力場は周りのものから来てるんや。例えば、この小さな分子がこの小さな分子を嫌ってるかもしれん。そしたら、反発力があるわけや。その小さな反発力を力場と考えられるんや。
計算するのはかなり複雑な力場やけど、その力場がこれらの分子に力を及ぼしてるんや。たぶんこの小さな分子はこっちに動きたがってて、この小さな分子はあっちに動きたがってて、この小さな分子はこっちに動きたがってるんや。
分子動力学をやる時は、基本的にその累積効果を得ようとしてるんや。これらの小さな分子に作用するこれらの小さな力を全て積分しようとしてるんや。
最終的に興味があるのは溶媒以外の原子のXiの位置だけや。溶媒原子っていうのは、この分子がただ3D空間に浮いてるんじゃなくて、他にもたくさんの分子があるってことや。水分子や他の分子が渦巻いてるんや。この分子はスープの中で渦巻いてるんや。
そのスープの中でこの分子が渦巻いてる動力学をモデル化するのは複雑すぎるんや。だから、こう言うんや。「ほな、何か溶媒があるな。それらが時間とともに変化するUって力場を作ってる。気にする分子と一緒に全ての異なる溶媒分子の影響をモデル化しようとするんじゃなくて、その全ての複雑さをこのUって呼ぶ箱に押し込めて、ただXiの位置、つまりその分子の小さな部分の3D位置が時間とともにどう変化するかを理解しようとするんや」ってな。
これが俺が言うてる、核となる仮定がまだちょっと遠いって感じる理由や。「複雑なことが起こってる。何が起こってるか本当には分からへん。何か力場があって、小さな分子があって、その力場は小さな原子や断片で構成されてる。それぞれの断片は空間に位置がある。そしてその位置の軌跡を計算してるんや」って言うてるだけやからな。
これは物理学者がよく馬鹿にされる「球状の牛を仮定せよ」みたいなもんやな。牛の問題を解こうとしてるのに、牛がかなり複雑な物体やってことを扱いたくないから、牛を表す球の体積を仮定するんや。
これはほぼ分子版の同じことをしてるみたいやな。「まあ、これらの分子が他のいろんな分子のスープの中で相互作用する時、量子的にはおかしなことが起こってるんやろうけど、各小さな原子が空間に明確な位置を持つ鎖があるって仮定しよう。そして、それらの明確な位置が時間とともに進化していくんや」って感じやな。
はい、分子動力学のための深層学習や。他の人もこれを試みてるんや。これらの論文はどれも古くないな。この分野はまだまだ新しいんや。ここの日付見てみ。2024年、2024年。一番古いのでも2019年やな。
つまり、分子動力学に生成AIや深層学習を使うのは本当に始まったばかりなんや。他にもクールな論文があったな。これや。拡散モデル。これ引っ張ってきたで。「アルファフォールドがタンパク質アンサンブルの生成のためのフローマッチングと出会う」。粗視化分子動力学軌跡でファインチューニングされた拡散を使ってるんや。
見てみ。これはあなたの生成画像のフローマッチングやな。生成AIの世界でうまくいってるいろんな技術を、この分子動力学の問題に適用しようとしてるみたいやな。これを全ての軌跡に適用してるんや。
軌跡全体の結合モデリングって何を意味するんやろ？結合モデリングってのは、ただここから前に進むんじゃないってことや。つまり、全てをこの最初のフレームで条件付けるんじゃないんや。結合モデリングは、この情報も入力してるってことや。
軌跡の一部、始まりか終わりか、ただ始まりだけか、途中の複数の部分を持ってて、知ってる情報を使って軌跡の残りをモデル化しようとしてるんや。ほな、MDの軌跡を確率的補間フレームワークの下で構築するんや。
p1って連続分布があって、これはPデータのはずや。Pデータは魔法の分布で、知ることはできへんけど、p1のサブサンプルは持ってる。そして、DXっていう連続フロー
ベースのモデルがあって、これが事前分布p0から、この場合は正規分布から、あなたを連れていくんや。
これは拡散モデルみたいに聞こえてきたな。何か事前分布があって、それは単にガウスノイズなんや。これは文字通りゼロを中心にした単位行列を持つガウシアンや。そのノイズを実際のデータ分布p1に変えたいんや。
あなたの画像データセットがp1で、p0がこの問題のガウスノイズに相当するもんや。そしてp1は地面の真実の分子軌跡のデータセットやな。
それについても少し問題があるんやけどな。地面の真実の分子軌跡って一体何やねん？そんなもん可能なんか？実際に地面の真実の分子軌跡を持ってるんか？それとも、地面の真実の分子軌跡やと思ってるものを持ってるだけなんか？
拡散モデルと同じように、ニューラルネットワークを訓練するんや。このニューラルネットワークは基本的にこのフローを予測しようとするんや。つまり、これらの小さな灰色の矢印を予測しようとするんや。
ほな、これらの小さな灰色の矢印を教えてくれるニューラルネットワークがあれば、あとはこうするだけや。「ほな、俺はここにおるな。小さな灰色の矢印は何や？ああ、これやな。ほな今ここにおるな。小さな灰色の矢印は今何や？ああ、これやな」ってな。
拡散モデルがガウスノイズから猫の画像への移動を予測してて、その小さな矢印やフローを教えてくれるのと同じ考え方や。これも同じアイデアや。「ああ、こっちに動いて、こっちに動いて、こっちに動いて、こっちに動いて」って感じやな。
そして、それを多くのステップでやるんや。これらの小さなステップの1つ1つが、そのニューラルネットワークの推論ステップや。最終的に欲しい分子にたどり着くんや。これはかなりクールやな。
ここに最適輸送がある。トランスフォーマーでパラメータ化された確率的補間子は、画像生成において最先端や。ほな、画像生成の最先端は拡散モデルやから、全て筋が通ってると思うで。
ほな、ティムさん、みんな盛り上がってるな。ちょっと見てみよか。SSDか。
ええやん、これだけ拾ったんやな。ほな、いつも皆に言うてることや：ステータスがあって、エネルギーを超えてどれだけ重要に座ってるかや。エネルギー - 分子にパラサイトって言葉を適用できるかどうか分からんな。意味をなさんと思うし、CRISPRはDNAやRNAから特定の配列を挿入したり除去したりする特定のメカニズムのことやから、これはCRISPRとは全然関係ないな。
エミリーからコメントがあるで：「複数のタンパク質の複合体で訓練するのを楽しみにしてるわ。全体のバインダーを条件付けしたり、与えられたターゲットをインペイントしたりできるかもしれんな」。確かに、これはまだ初期段階やな。この論文全体が本当に小さな分子だけを扱ってるし、エミリーも指摘してたけど、使ってるデータセットもめっちゃ小さいらしいで。
これはほぼ概念実証の論文みたいなもんや。基本的に「ほな、生成AIを使って分子動力学軌跡を作る方法はこうや」って言うてるだけやな。でも、これらが実際に何か行動可能な情報を提供できるほど大きな分子なのかどうかは分からんな。まだ何世代か待たなあかんと思うで。
誰かがもっと大きな、もっと複雑なデータセットで訓練するのを待たなあかんし、もっと複雑な分子も使わなあかんな。今は生成AIアーキテクチャの計算とメモリの複雑さによって制限されてるんや。このLに制限があるし、このTにも制限があるんや。
実際、この論文でもTに制限があるんや。トランスフォーマーで試してみたら、二次の複雑さのせいにTに制限があったって言うてるな。そして、Hyenaってものを使って、このTをもっと長くできるようにしたんや。
より現代的なアーキテクチャの1つを使ってTの制限を少し広げたんや。たぶん1000フレームから10万フレームに増やしたんちゃうかな。標準的なトランスフォーマーから線形注意やRNNに切り替えることで、このTを1000から10万に増やせたんや。
これは改善やけど、まだこのLを改善する必要があるな。Lが今のところ分子のサイズを制限してるんや。例えばこれみたいな極端に大きなものをモデル化しようと思ったら、Lをもっと大きくする必要があるんや。残基の数をもっと大きくせなあかんのやけど、残念ながらGPUがもうちょっと進化するまで待たなあかんと思うで。このL変数を上げられるようになるまでな。
ほな、続けていこか。ここに分子軌跡のトークン化がある。7つのねじれ角が必要な理由が分からへんな。ねじれ角が何を加えてるのかもよく分からへん。ここ見てみ。この配列の各フレームの位置は、回転と並進のこの配列で定義されてるんやけど、ここにも7つのねじれ角があるんや。
この7つのねじれ角が必要な理由が分からへんし、ねじれ角が何を意味するのかもよく分からへんな。回転と並進だけで十分やないんか？でも、それ以上のことは分からんわ。この種の物体の文脈でねじれ角が何を意味するのかも100%分からへん。
たぶん分子の結合が軸に沿って何か回転を持ってて、それがねじれ角なんかもしれんけど、ただの推測やで。
軌跡の生成に条件をつけるっていうのは、生成する必要のないノイズのない回転並進を持つフレームが軌跡に少なくとも1つは常に存在して、モデリングプロセスで参照できるってことや。
フォワードシミュレーション、補間、アップサンプリング、インペインティングのどれをやってるかに関わらず、常に少なくとも1つのフレームは持ってるんや。フォワードシミュレーションが一番難しくて、最初のフレームしか持ってへんけど、アップサンプリングみたいなものやったら、たくさんの異なるフレームを持ってるかもしれんな。
これらをキーフレームって呼ぶんや。これはビデオの参照やな。例えばH.264を使ってビデオを圧縮して家で送信する時、同じアイデアを使うんや。Netflixをストリーミングしてる時、全てのフレームを送信してへんのや。キーフレームだけを送信して、それらのキーフレームに対する相対的なオフセットを送信してるんや。
ここでも同じようなことをやろうとしてるんや。kt個のキーフレームt1からtkがあって、それからフレームtの残基jをトークン化するんや。残基jは各フレーム内の個々のトークンや小さな塊みたいなもんや。
ここ見てみ。xtの下付き文字は時間の配列のどこにいるかを示してて、jは分子内のどこにいるか、つまり残基のどこにいるかを示してるんや。そして、時間の配列のどこにいるかも示してるんや。
このse3を、回転行列と並進行列を持つんじゃなくて、単位四元数に変換してるんや。四元数は回転を表現する非常に人気のある方法や。たぶん、より効率的でスムーズやからやと思うで。
Rは3×3の回転行列やな。それを考えてみ。それは9つの数字や。でも四元数は4つの数字だけや。四元数はジンバルロックの問題もないし、回転を表現できへんってこともないんや。だから、回転を表現するのにより洗練されて効率的な方法なんや。
そして並進ベクトルがあって、これは3つの数字や。だからRとTを9つの数字と3つの数字から、QとTの4つの数字と3つの数字に変換したんや。
そして、このねじれ - まだ何やか分からへんけど - を単位円上の点に変換して、7kを得るんや。4つの数字と3つと14で、各フレームの各残基に対して7k次元のトークンを得るんや。7つのねじれ角の各々が、単位円上のある点を表す2つの数字でパラメータ化されてるんや。
全原子フレームXTをトークン化解除するには、単位円からねじれ角を読み取って、生成されたオフセットにキーフレームの回転並進を適用して、絶対的な回転並進を得るんや。
これがどうやってSC3不変にしてるかやな。ロボットアームや運動学的連鎖を考えてみ。各リンクの回転と並進を、何かの世界座標フレームに対する絶対的な回転並進を得るようにパラメータ化できるやろ。
この角度の回転を世界座標フレームに対して表現できるけど、もっと簡単な方法は、「ほな、これがロボットアームの前のリンクに対する回転と並進や。そして、そのリンクがその前のリンクに対してこの回転と並進を持ってる」って言うことや。
全ての回転と並進を、前のリンク、あるいはこの場合は前の小さな残基に対して相対的にすることで、モデリングの問題を簡単にして、より広範囲のアーキテクチャを検討できるんや。どないや、チャット？
用語「フレーム」をオーバーロードしてるな。ビデオフレーム、各残基の向きの3Dフレーム、全原子フレームとかあるな。
生成分布は回転並進を条件にしてるんや。アミノ酸とアミノ酸の同一性aがあって、これは基本的に20個の可能なアミノ酸の語彙やな。速度ネットワークをパラメータ化するんや。
これは拡散モデルみたいなもんや。ノイズ分布から実際に欲しいもの、つまり猫の画像や、この場合は実際の分子動力学軌跡に至る場所を教えてくれるんや。
この次元がだんだん複雑になってきてるのが分かるやろ。T個のフレームがあって、各フレームはL個の長さがあって、その各部分は7k+14やな。この7k+14はここから来てるんや。これはかなり高次元の空間やな。
それに0から1までがあるんや。時間が0から1で定義されてるからな。拡散モデルと同じで、時間が0の時はx=0、つまりノイズやガウスノイズ分布があって、時間が1の時は欲しい分布、つまり猫の画像があるんや。だからこれは0から1やな。これがTステップに離散化されてるんや。
ネットワークの主要部分は、残基のインデックスと時間にわたる交互の注意ブロックで構成されてて、各ブロックの構造はDIT、つまり拡散トランスフォーマーに非常に似てるんや。
実はこれやないけど、面白いことに今朝読んだんやけど、Sora拡散の人の一人がOpenAIを辞めてGoogleに移ったらしいで。OpenAIのゴタゴタはまだ続いてて、みんな辞めてるんやな。まあ、ドラマの一部やろうけどな。
実際にこれを引っ張ってきたで。この論文の付録のセクションに、彼らが使ってる正確なアルゴリズムがあるんや。ここにいろんなもんがあるのが見えるやろ。アミノ酸、ノイズのあるトークン、条件付けトークンとかやな。
ほんで、ここに拡散トランスフォーマーがあるんや。最初にやってるのは時間埋め込みを作ることや。位置埋め込みがあるのと同じように、時間埋め込みもあるんや。ここにいろいろあって、それから何層かのトランスフォーマー層があるんや。
積み重なったトランスフォーマー層がたくさんあって、それぞれの層がこの拡散トランスフォーマーの注意層や。拡散トランスフォーマーの注意層は基本的に2プレイヤーのためのもんや。かなり違うけど、基本的に2つの異なる認識やけど、全部ほぼ同じや。みんなとdntがあるんや。
例えば、この爆発性では2つの異なる受容があるのが分かるやな。これはかなり面白いけど、また違うんや。でも、各次元での注意の柔軟性があるんや。
それから全部をこの多層パーセプトロンに通すんや。これはかなり標準的なトランスフォーマーの状況やな。注意機構があって、それから多層パーセプトロンがあって、レイヤーノルムがあって全てをスムーズにしてる。それからこのトランスフォーマーブロックをたくさん重ねてるんや。
ほな、戻ろか。残基と時間の交互の注意ブロックがあって、モデルが生成する未知のフレームと残基にはマスクトークンが提供されるんや。
例えば、画像エンコーダーを事前訓練する時によくやるのは、実際の画像のデータセットから始めて、画像の一部をマスクするんや。そして、事前訓練の教師なし学習タスクは、マスクされた部分を予測しようとすることから勾配を受け取るんや。
答えはもう知ってるんや。この軌跡のデータセットを持ってるからな。でも、モデルにこれらのタスクの解き方を学ばせるために、基本的に最終的な答えを取って、その特定の部分をマスクして、それからモデルにそのマスクされた欠けてる部分を再現するように頼むんや。
答えはもう知ってるから、これは自己教師あり学習タスクなんや。ラベルを提供する必要はないんや。なぜなら、マスクしてるという事実からラベルが本質的に出てくるからや。
答えが分かってるこの小さなパッチを取って、モデルが予測したものを取って、それらを損失関数で比較して、それを使ってモデル全体に勾配を流すことができるんや。基本的に、このモデルを訓練するためにマスクモデリングを使ってるんや。
ほな、実際に何で訓練してるんやろ？これがデータセットや。MD-genを訓練するために、Atlasデータセットを使うんや。これは約3000の訓練用、100の検証用、100のテスト用のテトラペプチドで、100ナノ秒のものや。
この論文で一つ気になるのは、常にデルタTをいじってることやな。これらのフレーム間には一定の時間があって、実際にここで異なる時間解像度を持つことができるんや。
例えば、ここに行くと、psとかnsとか出てくるけど、psって何や？nsって何や？まあ、psはピコ秒で10のマイナス12乗秒、nsはナノ秒で10のマイナス9乗秒や。さらに下げていけるんや。fsはフェムト秒やな。
これらの小さな分子みたいなものでは、これらのフレーム間のデルタ時間はほとんど極めて小さくしたいって分かるやろ。
これが実際に問題の一部なんや。積分ステップと関連する分子現象の間の時間スケールが大きく離れてるからな。一部の分子現象はフェムト秒の時間スケールで起こってるかもしれんのや。
分子がこの小さなデルタの時間で小さなことをしてるんや。でも、配列長Lに制限があるから、このTフレームの数に制限があるんや。各フレームが10フェムト秒やったら、基本的に1ピコ秒で全ての接点を使い果たしてしまうんや。
でも、分子が1ミリ秒で何をするか知りたいとしたら、これらのフレーム間の時間解像度をもっとナノ秒くらいに上げなあかんのや。
この論文では常に異なる時間スケールをいじってて、それがちょっと問題なんやけど、まあ、やらなしゃーないんやろな。
ほな、このAtlasデータセットに戻ってみよか。これを見つけてきたで。Atlasデータセットはこれから来てるんや。「Atlas：原子レベルの分子動力学シミュレーションからのタンパク質柔軟性の記述」や。
Atlasは標準化された全原子分子動力学シミュレーションのデータベースで、インタラクティブな図表や軌跡の可視化の形で分析が付いてるんや。このデータセットはここで自由に利用できるんや。
クリックしてみ。これがAtlasデータセットや。ようこそ。ここにAtlasが世界を支えてるのが見えるやろ。Atlasはギリシャ神話の人物で、世界を支えてる奴や。
全部で1390のエントリーがあるのが分かるやな。これは本当に小さなデータセットやで。俺の世界から言うたら、誰かが「ほな、ロボティクスモデルがあって、この1000の軌跡でロボティクス基盤モデルを訓練しようとしてる」って言うたら、「それはゴミやで」って言うわ。少なくとも10万か100万は必要や。
だから、これはまだまだ初期段階やな。このデータセットはめっちゃ小さいからな。ほな、これらの1つをクリックしてみよか。クリックすると、こんな感じになるんや。これが実際の見た目や。
101フレームあって、この大きなもの
の中の小さな分子の1つ1つの位置が基本的に全部見えるんや。ここに来て、止めたり、動かしたりできるんや。
何が起こってるか正確に見るのは難しいな。始めてみよか。これが訓練に使ってるデータセットや。正直、これらのほとんどは単に振動してるだけみたいやな。
これみたいな感じやな。だから、これはまだまだやと思うんや。データセットがめっちゃ小さいだけやなくて、データセットの元のソースがこの全原子分子動力学シミュレーションやからな。
これは基本的に、ハードコードされた古典的な方程式のセットを使ってるってことや。分子の世界でのニュートン物理学みたいなもんやな。それを使って「ほな、これらの1つ1つに対して物理方程式を計算したら、粒子はこう動くはずや」って言うてるんや。
基本的に古典的な技術を使ってこの分子軌跡を計算して、それから深層学習モデルをその古典的に計算された分子動力学軌跡で訓練してるんや。
このモデル、この深層学習モデルは地面の真実で訓練されてるんやなくて、地面の真実やと思ってるシミュレーションで訓練されてるんや。ここにちょっとエラーがあるんやな。
残念ながら、ここには地面の真実がないんや。地面の真実の分子動力学軌跡のデータセットを実際に作れるんかどうか、俺には分からへん。もし作れへんのやったら、このシミュレーションと同じくらい正確にしか望めへんのや。
機械工学の方でFEMっていうのがあるんや。有限要素解析っていうんやけど、有限要素解析では、何か物を設計する時、例えば飛行機の翼みたいなもんを設計する時にこういうシミュレーションをするんや。
このシミュレーションでは、飛行機の翼を小さな部分に分解するんや。小さな有限要素にな。それから基本的に古典的な物理方程式をやるんや。「ほな、この小さな四角はこれに引っ張られてて、これに引っ張られてて、これに押されてて、これに引っ張られてて、これに押されてる」みたいな感じやな。
このFEMシミュレーションには2つの問題があるんや。1つは、これを小さな部分に分解して古典的に全部計算するだけじゃ、根本的に正しくないってことや。たぶん、これらの間で奇妙な量子効果が起こってて、それは絶対にモデル化できへんのや。これが1つ目の問題や。つまり、実際の地面の真実やないんや。ある種の、地面の真実の近似みたいなもんやな。
2つ目の問題は、これにはめっちゃ時間がかかるってことや。ここにミームがあるで。「有限要素解析大好き。1つの数字を変えて、新しいシミュレーションが解決するのに2時間待つのが楽しみや」。これはどういう意味かっていうと、よくこのFEMを実行する時、永遠に時間がかかるんや。
全部セットアップして、スタートを押したら、実際にこれら全てを計算するのに1日くらい待たなあかんのや。だから、潜在的に間違った答えを出すだけやなくて、クソほど時間もかかるんや。
この小さな方程式の1つ1つを計算するのに、コンピューターがひたすら計算しまくってるからな。ひたすら計算して、全ての小さな相互作用を明示的に計算してるんや。
ここにあるこういうものも同じことなんや。この分子動力学も、動いてる小さなもの1つ1つを文字通り計算してるから、めっちゃ時間がかかるんやろな。
そして、その結果は地面の真実やとは言えへんのや。ほな、これはどうやってその問題を解決するんや？最初の問題、つまり「これは地面の真実ですらない」って問題は解決せえへんのや。でも、2つ目の問題は解決するんや。
2つ目の問題は「これには何時間もかかる」ってことやけど、このモデルはそれを解決するんや。なぜなら、もうこの全てを計算する必要がないからや。基本的に、モデルが数回の推論ステップで生成してくれるんや。これは実際にめっちゃ大きな改善やな。ここにそれを証明するデータがあるで。
ここに、テストタンパク質アンサンブルでの中央値の結果があるな。でも、ここの実行時間を見てみ。ここにアルファフローとMSAサブがあるやろ。70秒や。このアルファフローが70秒で、これが古典的なガラクタやな。全部明示的に計算してるんや。
でもMD-genは、ニューラルネットの数回の推論パスに減らしただけや。見てみ。これは10倍の改善やで。これはめっちゃ大きなことやな。もう座って待つ必要がないってことやからな。
例えば、新しい薬を設計しようとしてるとか、これらの分子間の相互作用を理解しようとしてるとするやろ。仮説を1つ立てるたびに、1日待たなあかんのや。この小さな分子動力学シミュレーターが全部明示的に計算するのを待つからな。
でも今はかなり速くできるんや。だから、最終的な質はこの全原子分子動力学シミュレーションと基本的に同じになるんやけど、それより良くはならへん。でも、めっちゃ速く得られるんや。つまり、反復の時間がめっちゃ短くなるってことやな。
タンパク質の設計や、特定の相互作用を持つ分子の設計がどんどん自動化されていく世界に向かってるとしたら、異なる経路を非常に速く探索できることは実際にめっちゃ重要やな。
これは、モンテカルロ、モンテカルロロールアウトみたいなもんやな。今はみんなO(1)のせいで夢中になってるけど、強化学習の世界では長い間やってきたことやな。これらの小さなステップの1つ1つで、こんなことをせなあかんかったらどうなるか想像してみ。そのツリーを探索するのにめっちゃ時間かかるやろ。
でも、これらの小さなステップの1つ1つが0.2秒、つまり10分の1の時間しかかからへんとしたらどうや？もっと効果的にたくさんのツリーを試せるやろ。これは実際、強化学習でよくやることやな。このロールアウトポリシーを探索する実際のポリシーは、しばしばより小さいんや。
通常、実際に出て行って異なる軌跡を試すものは、実際のモデルよりも小さくて安価なモデルになるように設計されてるんや。だから、効率的に探索や検索することが、この論文が解き放ってるものやな。質は変えへんけど、速度を変えてるんや。そして速度があれば、より大きな空間を検索できる。より大きな空間を検索すれば、おそらく欲しいものを見つけられるんや。
どのギリシャの神が俺を混乱させてるんやろ？アトラスはギリシャの神なんやろか？これが俺の質問や。ギリシャの神なんか、それともタイタンみたいなもんなんやろか？古い神々がいて、それらがタイタンで、それから新しい神々がいるっていう種類の存在論があるのは知ってるんやけど、正確には分からへんな。ギリシャの神々のパンテオンについてはあんまり詳しくないんや。ただ、アトラスが世界を支えてるってことは知ってるけどな。それが俺の質問の全てや。分からへん。分からへん。分からへん。分からへん。分からへん。それが俺の知ってる全てや。タイタンやって？ほな、そうやな。
我々の実験では、マルコフ状態モデルを広く使ってるんや。MD軌跡を10個のメタ安定状態に離散化して、それらの間の遷移確率を推定してるんや。これは実際、ちょうどええタイミングやな。我々はこのツリーを引っ張り出したばっかりやからな。これはマルコフ性を仮定してるんや。
マルコフっていう言葉を見たら、基本的に状態があって、可能な行動の限られたセットがあるってことを意味するんや。この場合、彼らが言うてるのは、各状態、つまり基本的にこれらのフレームの1つが、全ての可能なことの連続空間に行けるんじゃなくて、「いやいや、これらの3つの可能な次の状態の1つにしか行けへんのや」ってことやな。
そして、その状態に到達するための3つの異なる行動、あるいはこの場合は遷移があるんや。無限の可能な次の状態があるんじゃなくて、10個の可能な次のメタ安定状態しかないんや。これは粒子やこれらの小さな分子が見つかる状態やと思うんやけど。
そして今、これらの間の遷移確率を推定するだけでええんや。遷移確率は基本的にこの数字やな。例えば、この状態からこの状態に行く確率が0.1やとするやろ。A2は0.8かもしれへん。そしてこれは0.01かもしれへんな。
だから、遷移確率はこの状態から次の状態に行く確率を示す小さな数字なんや。この状態にいるという条件の下でな。
俺はマルコフの仮定が好きじゃないんや。だって、現実世界を表現してへんからな。特に、こういった小さな分子のスケールではな。この種のものでマルコフの仮定をするのは、俺には全く意味をなさへんように思えるんや。でも、まあええわ。
ほな、ここに戻ろか。マスクトークン。Je原子並進、ねじれ、残基の同一性。アップサンプリング、これは何やろ？ああ、これは単に何を条件にしてるかを示してるだけやな。基本的に、条件付けっていうのはモデルに何を与えるかっていうことや。
拡散モデルでは、例えばテキストで条件付けするやろ。拡散プロセス、つまりここを予測する実際のニューラルネットは何かで条件付けされてるんや。生成画像モデリングでは何で条件付けするんやろ？電子的で、密で、可能性があって、エネルギー的な大惨事やな。
だから、画像分析みたいなもんやな。テキストの一部や何かのオブジェクトクラスで条件付けしようとするんや。この場合は、フォワードシミュレーションをしてるなら最初のフレームで条件付けするんや。アップサンプリングをしてるなら、たくさんのフレームで条件付けするんや。
これが我々が話してたデータセットやな。マルコフ状態モデルについて話したな。各ペプチドに対して100ナノ秒の軌跡を得て、地面の真実のシミュレーションと比較するんや。これもまた、地面の真実やないんやけどな。これと同じで、このビームの地面の真実やないんや。
実際にこのビームを曲げたら、このシミュレーションとは少し異なる答えが得られるはずや。だから、FEMを地面の真実と呼ばへんのと同じように、このクソやこのクソを地面の真実と呼ぶべきやないんや。実際の地面の真実は現実の物理的な現実やけど、物理的な現実の軌跡を得ることができるかどうかさえ分からへんのや。
フェムト秒のフレームレート解像度で分子が実際に何をしてるかの軌跡を得ることができるのかどうか、俺には分からへんのや。たぶん、時間が経てばそういう技術を手に入れられるかもしれへんけど。
ほな、彼らは異なる時間スケールを見てるんやな。ここに10ナノ秒、1ナノ秒、100ピコ秒、100ナノ秒があるやろ。これらは異なる時間スケールで、基本的にここでのパフォーマンスを比較してるんや。
何か500 IQみたいな指標があるな。ジェンセン・シャノンダイバージェンスや。これはダイバージェンスやから、たぶん低い方がええんやと思うで。0.13は、これより低いから、これの方がええんやな。これよりちょっとええみたいやし、これはもっとええみたいやな。
MD-Genは地面の真実との優れた分布の類似性を示してるんや。テストペプチドでのフォワードシミュレーション評価やな。ここは見にくいけど、基本的に彼らが示したいのは、ここに2つのものがあるってことや。
背骨のねじれがあって、青いのと、それからオレンジのがあるやろ。たぶんオレンジが予測で、青が実際のもんやな。彼らが示してるのは「見てみ、かなり正確やろ」ってことやけど、いくつか見逃してるところもあるんや。
ここに青があるのが見えるやろ。ここにはオレンジがないんや。だからこの小さなポイントを完全に見逃してるんやな。そして、ここでこの分子を見てみても、これは分子動力学か、彼らが言うところの地面の真実のシミュレーションで、これが彼らの予測やな。
ここに実際に違いがあるのが分かるやろ。ここが濃い赤で、これが青やな。俺には分からんけど、たぶんモデルの方が正しいんかもしれへんな。たぶん、実際にこれらをどんどん大きなデータで訓練していくと、今このモデルとこれを比べたら、俺は古典的な分子動力学シミュレーションの方を信頼するやろうけど、これを数年先に投影してみて、どんどん大きなデータセットで訓練していくと、実際にはモデルの方を信頼し始めるようになるんやないかな。
一般化や予測する能力は、このハードコードされた方程式を使って前方に計算するアプローチよりも、データ駆動型アプローチの方が強力になると思うからな。今のところ、こっちの方がええと思うで。古典的なMDの方がおそらく実際に起こってることにより正確やと思うけど、データのクランクを数回回すだけで、分子動力学から生成されたMDの方が実際の地面の真実により近くなる可能性が高くなると思うんや。
社会的に関与したサンデュイテンCは、FDGAのpP相当の軌跡を約60 GPU秒で生成したのに対し、3 GPU時間かかったんや。これは俺が言うてたことと同じやな。この論文の最も重要な部分は単に速度やってことや。
めっちゃ速くなったから、明示的に計算するよりも数桁速く完全な軌跡を得られるんや。10倍から1000倍の
速度向上や。これが今、人々がこれに興味を持ってる理由やな。
ここに何があるんやろ？遷移経路サンプリングの結果か。ああ、これは面白いと思ったんや。2D自由エネルギー表面上の軌跡やな。この黒い線が軌跡を表してるんや。これらのドットの1つ1つがフレームやな。
100フレームあるとしたら、1、2、3、4、5、6、7、8、9、10...って感じやな。俺が奇妙やと思ったのは、ここにもっとこういうグラフがあるけど、これがめっちゃ揺れ動いてることやな。
分子がここからここ、ここからここに動いてるわけやないんや。非常にスムーズな経路で遷移してるんやないんや。この経路を見てみ、かなりバウンドしてるやろ。これが一番よく表してると思うんやけど、分子が本質的に振動してノイズがあって、それから振動して、別のところにポップアウトするんや。
ここ見てみ。こんな感じの分子やないんや。基本的に振動してて、それからこんな感じで行くんや。ここからここまで、次のメタ安定位置にただスナップするように見えるんや。
そして、このメタ安定位置の周りをただ振動して、それから次のメタ安定位置にスナップして、そこでまた振動するんや。この小さな振動がなんなのかの説明が見当たらへんのやけど、これは俺が最初に話してた元のことに戻るな。
ここでは多分何か奇妙なことが起こってるんやたぶん、ここで振動してる理由には何か奇妙な量子力学的な理由があるんやろな。特定の方法で振動した後にのみ、次の状態にバウンドするんやろうし。
これらの経路を見てみ。めっちゃ奇妙やで！ここでバウンドして、それからそこに上がって、それから戻ってきて、それからここに行ったんか？めっちゃ奇妙やな！
例えば、あのインターネットのミームみたいなもんや。人々が水ボトルを半分くらい水で満たして、それをひっくり返そうとするやつあるやろ。それをこの種のもので模倣しようとするのを想像してみ。
このFEMスタイルのやつで、水の一つ一つの塊があって、何かの流体シミュレーションがあって、このボトルをひっくり返して頭で立たせようとする時に水がどう動くかを正確にモデル化しようとするんや。
この種のシミュレーションをしても、実際にどうやってそうなるのかや、実際にどうやってそうなるのかを正確に見つけ出すことはほとんどないやろうな。
だから、ここで俺が見てるのも同じようなもんやと思うんや。これらの小さな振動がどれだけ正確かで、この精度を測ってるんやろ？精度っていうのは基本的に「ああ、ここらへんにいて、それからここらへんにいるってことやな。それでほぼ十分や」っていうことなんか？それとも、これらの小さなバウンスの1つ1つを本当に信頼できるくらいの粒度なんやろうか？これらの小さなバウンスはかなり恣意的に見えるんやけどな。
まあ、批判的な目で見てるんやけどな。我々のモデルは、未見のペプチドに対応する任意のレアな遷移の軌跡をゼロショットでサンプリングできるんや。そやな、これも将来的にはもっと大きな問題になるやろうな。
これらのモデルがどんどん大きくなっていくと、我々が決してモデル化できないようなものをゼロショットで予測できるようになると思うんや。例えば、相互作用が非常に複雑で大きな粒子があって、このタイプのFEAやこのタイプのものを計算するのに宇宙の時間が足りへんようなものがあるかもしれへん。
でもこれらのモデルは単に答えを出すんや。「ほな、この本当に奇妙で複雑なセットアップがあるな。100ピコ秒後にはこうなるやろう」って言うんや。たぶん我々は、なぜこの分子がそうするのかについて機械的な理解を得ることはないかもしれへんけど、我々の観点からすれば、誰がこれをできるのか、なぜできるのかは分からへんけど、気にせえへんのや。
もしこの正確な分子が、この非常に特定の結合部位に収まる奇妙な小さなものに変わるって教えてくれるなら、それで十分やねん。人間として興味があるのは、これで実際に何かできるかどうかってことやからな。
その時点では、答えだけが必要で、分子動力学空間での機械的な解釈可能性については本当に気にせえへんのかもしれへんな。
一部の分子運動はより速い時間スケールで起こるんや。MD-genは10ピコ秒の時間ステップで保存された軌跡を、より細かい100フェムト秒の時間ステップにアップサンプリングできるんや。でも、これをどうやって評価するんや？
自己相関関数を比較するんやけど、10フェムト秒での分子軌跡をどうやって評価するんや？そこには地面の真実がないんやから、アップサンプリングはできるかもしれへんけど、それを検証することはできへんのや。
画像のアップサンプリングみたいなもんやな。単に「強化」するだけやろ？それが我々にとって馬鹿げて見えるのは、無限に強化し続けるための情報がそこにないってことを知ってるからや。ここでも同じようなことが言えるんや。
「強化」して、どんどん小さな時間ステップにアップサンプリングしていくけど、それが実際にそうなってるってどうやって分かるんや？これらの特徴は完全に見逃されてる。特定のねじれ角の振動を明確に回復してるんや。
振動っていうのは、たぶん俺が前に説明してたことやな。ここで振動してるって事実や。この種のぐらつく振動があって、それから突然ある地点に到達するか、ある量の運動量を蓄積するんや。運動量が正しい心的モデルかどうかも分からへんけど、何らかの理由で、ただここからここに行くんやなくて、ここで揺れ動いてから次に行くんや。めっちゃ奇妙やな。
ほな、これについて話したけど、もう一回話してもええかな。トランスフォーマーを使ってた時、1000フレームで10ピコ秒の時間ステップに制限されてたんやけど、極端に長い軌跡を生成したかったんや。
だから、ベースラインのsitアーキテクチャの時間注意を非因果的なHyeNa演算子に置き換えたんや。これはO(n²)ではなく、O(n log n)やな。これがトランスフォーマーの二次複雑性で、代わりにHyeNaを使うんや。これや。
これがHyeNa論文や。HyeNa階層、2023年や。100万年前みたいに感じるけど、見てみ。これはトリドウや。Mambaの人や。Mambaの人とジョシュア・ベンジオがおるな。OGのヘビーヒッターやな。
これは基本的に、他のRNNやMamba論文と同じようなもんで、結局は配列長の二次コストを削減するんや。「それさえ修正できたら」ってな。ほな、行くで。Hyenaは、暗黙的にパラメータ化された長い畳み込みとデータ制御のゲーティングを交互に配置することで構築された、注意のサブ二次的なドロップイン置き換えや。
つまり、TLDRは、配列長を増やせるってことや。でも、タダ乗りはできへんのや。結局のところ、これらのRNN、Mamba、hyenaはタダ乗りやないんや。トランスフォーマーが持ってるパワーの一部を失ってるんや。
トランスフォーマーがめっちゃパワフルなのは、このO(N)の二乗を持ってるからや。そのO of N二乗は、配列のどの部分も配列の他のどの部分にも注意を払えるってことを意味するんや。
対して、hyenaみたいなものは、畳み込みネットワークみたいなもんやな。この畳み込み操作が起こってるから制限されてるんや。つまり、ちょっと情報を失うってことやな。RNNみたいなもんや。隠れ状態があって、ちょっと情報を失うんや。
だから、これらのhyena、Mamba、RNNは魔法の弾丸やないんや。トランスフォーマーの代わりにこういうものを使うと、ちょっとパワーを失うんや。でも、その代わりにもっと長い軌跡を持てるようになるんや。
彼らが特に置き換えてるのは、ベースラインの時間注意や。ここ見てみ。ここに注意があるやろ。時間での注意や。このGTがここにあるやろ。これが時間注意や。これをこれに置き換えるんや。見えるやろ？
基本的にこれを取り除いたんや。これはまだあるし、Lに対するropeでの注意もまだあるんや。Lってのはここの配列やな。小さなアミノ酸の長さみたいなもんや。でも、時間での注意を取り除いて、hyenaに置き換えたんや。だからより長い配列ができるんや。
ここにあるな。不変点注意や。でも、基本的に全部同じや。比較してるんやろか？ここに実際の違いがあるんやろか？
まあ、この論文のもう1つの問題は、俺にはバイオの専門知識がないってことやな。だから、これらの指標が何なのか全然分からへんのや。コンピュータービジョンの論文を読む時のことを忘れてたわ。他の人には分からへんかもしれへんけど、SSIMとか、40種類くらいの指標があって、それらの指標に慣れてくるんや。
でも、これらが何なのか全然分からへんのや。二乗平均平方根差、MDPCA W2距離。弱い接触J。露出残基J。これらが何なのか本当に分からへんのや。だから、0.29が0.41よりどれくらいええのかを知るのはめっちゃ難しいんや。
でも、実行時間は分かるで。0.2の実行時間と70の実行時間を比べたら、かなりええな。かなり強いな。
分子インペインティングは分子機械を設計する一般的な技術になり得るんや。例えば、これを持ってて、この種の軌跡を持つものを作りたいとしよう。でも、ここにどんな分子をはめ込むか分からへんのや。
「ほな、この効果が本当に欲しいんやけど、このタンパク質が内側のリングにあってほしいんや。でも、そのタンパク質が何なのか全然分からへん」って感じやな。このモデルを使ってそれができるんや。
基本的に「ほな、このモデルを取って、タンパク質のその部分を空白にして、それから実行してインペイントしたら、何が起こるか見てみよう」って感じでできるんや。そしたらモデルが教えてくれるんや。「ああ、この特定の動きをこの特定のものに欲しいんやったら、これが特定の小さなペプチドや、これらが特定の構成のこういう小さなものや」ってな。
これはかなりパワフルやな。たとえこの1つが正しい答えを出さへんとしても、さっき言うてたように、これは基本的にこの古典的なシミュレーションタイプのもので訓練されてるから、正しい答えを出さへんかもしれへん。
でも、数百回実行できるから、ただのニューラルネットの推論やから非常に速くて効率的やし、100個の異なる可能な候補を得られるんや。そしたら、永遠にかかるような1つの候補の代わりに、100個の異なる可能な候補を手に入れられるんや。
分子軌跡特有の考慮事項、マルコフ性、微視的世界の可逆性と巨視的世界の対比。ここでは、分子レベルで起こってる奇妙なことを我々がおそらくモデル化できへんってことについて、ちょっと自覚的になってるんやと思うで。
そやな、将来的にはかなり多くの地面の真実のMD軌跡データが利用可能になるやろうな。でも、そんなもの本当に手に入れられるんかどうか分からへんのや。高レベルの顕微鏡、電子顕微鏡が正しい用語かどうか分からへんけど、ソーシャルメディアのフィードで見たことあるんや。
「金属格子の画像を撮ることができた」みたいなのを見たことあるんや。小さな原子が格子の中にあるのが見えるんや。そういう種類のイメージング技術では、時間の次元も扱えるんやろうか？これらの分子の動画を作れるんやろうか？
そして、そのイメージング技術の解像度はどれくらいなんやろう？個々の小さな原子や分子の解像度だけでなく、フェムト秒レベルの時間解像度も持つようなイメージング技術から、我々はどれくらい離れてるんやろう？ミリ秒レベルなんやろうか？実際のところ分からへんな。
実は、誰かがこれを知ってるかもしれへんな。GPTや。GPTに聞いてみよう。GPT、1つのプレビューで聞いてみよう。メートル単位のスケールは？スケール。現在の技術で分子動力学のイメージングができる最小解像度は何や？特に、メートル単位のスケールと秒単位の時間や。見てみよう。考えてるな。
考えてるな。オングストロームオーダーの空間分解能と5フェムト秒までの時間分解能を達成してるんや。めっちゃすごいやん。走査型トンネル顕微鏡と原子間力顕微鏡は個々の原子や分子をイメージングでき、サブナノメートルの空間分解能を達成してるんや。それはええけど、時間的なことが知りたいんや。
超高速レーザー分光法では、フェムト秒レーザーパルスを使って、分子振動や反応が起こる様子を約10フェムト秒の時間分解能で観察できるんやって。まあ、これでできるみたいやな。ほな、実際に地面の真実の軌跡が取れるかもしれへんな。
ちょっと待ってな、超高速レーザー分光法ってどんなもんなんやろ？これってどれくらい特殊なもんなんや？普通の大学にあるようなもんなんか、それとも理論上のもんなんか？ほな、実際どう動くんか見てみよう。
励起源。サンプル。偏光子。うわ、なんやこれ。これが技術者や科学者の人生なんやな。どれだけ学んでも、まだまだ学ぶことがあるんや。
超短パルスレーザーを使えるんやな。電磁...ああ、なるほど。イメージング技術の解像度は、ある意味で波長によって制限されるんやな。波長より小さいものは測定できへんのや。この場合、このパルスの長さが時間領域を測定できる解像度を決めてるんやな。
でも、もう一つの問題は、ここでまた量子効果に入り込んでしまうかもしれへんってことやな。超高速レーザーを何か分子系に当てると、おそらくそれに影響を与えてしまうんや。つまり、その分子動力学軌跡を測定する行為自体が、普通なら起こるはずのことを変えてしまうんやないか？
レーザーで撃ってるから、実際には異なる挙動を示すことになるんやないか？二重スリット実験と似たようなもんやな。うーん、難しいな。エイリアンが来て、これらの質問に答えられるクールな技術をくれるのを待つしかないんかもしれへんな。
分子動力学軌跡のデータセットを集めて、それに基づいて生成AIモデルを訓練して、分子の世界で何が起こるかをあらゆる時間スケールで知ることができるようになるまで待たなあかんのかもな。
さて、みんな、これでほぼ終わりや。他に何か持ってきたもんあったかな。ああ、そうや、これ引っ張ってきたんやった。光合成みたいな奇妙な量子効果が実際に起こってるのと同じように、脳にも量子効果があるかもしれへんって考えてる人がおるんや。結構尊敬される人やで、ここにペンローズがおるやろ。
意識が量子レベルで発生してるかもしれへんって考え方やな。唯物論的な枠組みやと、脳はニューラルネットワークで、全てのニューロンの入力と出力を効果的に持ってるだけで、そうやって意識を再現できるって考えるんや。
でも、量子の世界を本当には理解できてへんし、脳には量子効果のある微小管みたいなものがあるから、意識をさらに下のレベルまで押し下げることができるんやな。脳のニューロンが発火することから生まれるんやなくて、実際にはもっと低いレベルで生きてるって考えられるんや。
これはちょっとクールやと思うけど、また、基本的に証明不可能やから、実際には何も意味せえへんのかもしれへんな。他に持ってきたミーム、ああ、もうミーム見せたな。これでほぼ全部やな。
ほな、この水飲んで、質問への答えをスクロールして見て、それで終わりにしよか。
...うわ！ほな、見てみよう。文字通り何週間もかかることがあるんやな。アルファフローはMDよりもフローマッチングでめっちゃ速いんや。分子動力学に使われてるAtlasか。
そやな、Atlasってのはよく使われるモチーフやな。世界を支えてるからやろうな。プロジェクトの名前につけやすいんや。それにギリシャの神々は人気があるんやないかな。著作権がないからな。プロジェクトをゼウスって呼んでも、誰も訴えへんやろ。
注意を引いたな、言葉遊びやけどな。ジェンセン・シャノンはKLの対称性やな。つまり、ジェンセン・シャノンはKLダイバージェンスってことやな。低温電子顕微鏡法。
宇宙はガウス分布とスプラットや。ガウス分布とスプラットを核心的な仮定として使うのは好きやな。ガウス分布とスプラットも球状の牛みたいなもんやけど、なぜか3D世界の小さな位置がねじれ角や回転や並進になるっていう仮定ほど悪くは感じへんのや。
実際、このやり方でガウス分布とスプラットもできるんやないか？例えば、各小さなスプラットが何か世界フレームに対して定義されるんやなくて、前のガウス分布とスプラットに対して定義されるようなガウス分布とスプラットを想像してみ。めっちゃごちゃごちゃになるやろうけど、できるはずや。ガウス分布とスプラットにも同じ種類の基本的な仮定を適用できるんやないか。
猫って何を意味するんや？猫は本物の猫やで。俺の全てのサムネイルに「猫」って書いてあるんや。この猫は本物の猫で、ブーっていう名前なんやけど、今どこにおるか分からへんな。猫はそこから来てるんや。昔は実際の顔をサムネイルに載せてたんやけど、「俺はただのブサイクな奴やし、誰も見たくないやろ」って思って、でも猫を載せたらちょっとかわいいやろ。
鏡よ鏡、王国で一番美しいものは何？猫やな。プロジェクトをヴェスパシアヌス王って呼んでもええか？ローマ帝国やローマ皇帝も著作権がないと思うんやけど、会社やプロダクトの名前にローマ皇帝を使ってもええんやろか、それとも著作権があるんやろか？
そんなわけないやろ、絶対できるはずや。カエサルか。ほな、ちょっとまとめてみよか。今日のストリームは生成分子動力学についてやった。基本的にこの論文をレビューしたんや。これはうちのDiscordチャンネルのバイオ専門家のアメリーが勧めてくれたんや。
基本的に生成AIを使って粒子のダイナミクスをモデル化するんや。粒子やないけど、正確な用語は何やったっけ？ペプチドと短鎖、短いペプチドと単一鎖タンパク質やな。俺の頭の中ではこんな感じに見えるんや。基本的にこれらの小さな分子があって、それらが空間で動いたり振動したりしてるんや。それをモデル化したいんや。
開始位置か、開始位置と終了位置か、あるいは軌跡全体のいくつかの異なるキーフレームが与えられたら、残りを埋めたいんや。これが役立つ理由は、薬の設計、タンパク質の設計、分子レベルで何が起こってるかの理解ができるからや。
それをするために、基本的にデータセット、特にこのAtlasデータセットを使うんや。これは分子軌跡のデータセットや。かなり小さなデータセットやけど、このデータセットも古典的なシミュレーション方法で生成されたんや。
正確な説明の仕方は分からへんけど、例えばこれと似たようなもんやって知ってるんや。これは有限要素解析のアイデアに似てて、全ての小さな相互作用に対して全ての方程式を実際に計算して、それから相互作用を行って、それにめっちゃ時間がかかるんや。
誰かがこのデータセットを作るために、これらのシミュレーションを1つ1つ実行して、それにめっちゃ時間がかかったんや。そして、このMITのチームがそのデータセットを取って、それに基づいてニューラルネットを訓練したんや。
そのニューラルネットは今、以前ならこのシミュレーションを実行して永遠に時間がかかってたような軌跡を与えることができるんや。でも今は、ただニューラルネットを数回推論するだけで実行できるんや。めっちゃ速くなったんや。
だから、ただニューラルネットで実行できるんや。古典的な分子動力学シミュレーションと比べて、100倍から1000倍の速度向上があるんや。
ここに例えば軌跡があるやろ。これは小さな分子が振動してるんや。見えるやろ。振動して、振動して、ボンって変わって、少し形が変わって、そこで振動して、またボンって変わって、また少し形が変わって、そこで振動するんや。
これが実際の完全な軌跡やな。例えば、ここからここに行く薬を設計したいとしたら、このモデルを使って多くの異なる可能な軌跡をサンプリングできるんや。そうすることで、特定の形を作り出すために薬に欲しい異なるモチーフや小さな要素についてより理解できるようになるんや。
その特定の形が何か特定の結合部位に収まるようなものやな。俺はバイオの専門家やないから、ただランダムなアイデアを思いつきで言うてるだけやけどな。これがだいたいこの論文の内容や。
最も低いレベルの仮定は、これらの小さなアミノ酸の配列は全て、基本的に位置と、前のものに対する回転と並進としてパラメータ化できるってことや。これらの特殊群を使ってこのアミノ酸の鎖をパラメータ化してるんや。
もう一つクールなことは、トランスフォーマーアーキテクチャを使ってるってことやな。トランスフォーマーは二次の注意があるから、文脈長や配列長、この場合は時間の長さTが制限されるんや。
だから、このHydraアーキテクチャを使うっていう小さなトリックがあるんや。これで配列長を数千から数十万に増やせるんや。でも、これがだいたい全部やな。
レビュアーが言うように、これは斬新で自明でない作品で、とてもわくわくするし、影響力が高い可能性があるんや。でも、このLを増やすにはおそらくあと数年待たなあかんやろうな。このLが大きくなればなるほど、より複雑な分子とそのダイナミクスをモデル化できるようになるんや。
そして、このTが増えれば増えるほど、より長い相互作用をモデル化できるようになるんや。例えば、最終的にはこのTがとても長くなって、ウイルスが来て何かを作り出すところから、そのシステム全体をニューラルネットでモデル化できるようになるかもしれへん。それはかなりクールやろうな。
でも、おそらく何らかの方法で、現在の何倍もの大きさのデータセットを手に入れるのを待つ必要があるし、もっと地面の真実に近いバージョンも必要やと思うんや。実際に少し調べてみたら、めっちゃ高い時間分解能を得る方法があるらしいんや。
このモデルの訓練に使われてるデータは実際のデータやなくてシミュレーションされたデータやけど、必要な時間スケールと空間スケールを与えるイメージング技術はあるみたいやな。だから、誰かがデータセットの収集を始めて、それらのデータセットで訓練できれば、基本的に分子の動きを予測するものができるんやないかな。それはかなり役立つはずや。
これはフェイフェイ・リーの空間AIとどう関係するんやろ？フェイフェイ・リーはImageNetで知られてて、最近スタートアップのために大金を手に入れたんやけど、それを空間AIって呼んでるんやな。でも、これとは関係ないと思うで。分子の空間インテリジェンスの話をしてるわけやないと思うんや。もし賭けるとしたら、たぶんロボティクスみたいなもんやろうな。自動運転車とか、ImageNetに似たようなもんやと思うで。
たぶん、彼女が話してるのは、将来のフレームのガウス分布とスプラットを予測できるような、ガウス分布とスプラットの世界モデルみたいなもんやと思うんやけど、実際のところは分からへんな。内部情報は持ってへんし、知らんのや。フェイフェイ、ハニス・スタークはレジェンドやって。ほな、この人はレジェンドなんやな。知っとくわ。
たまたまあんたのチャンネルに出くわしたんやけど、コンテンツ楽しんでるで。ありがとうな。ほな、もう終わりや。他にないわ。ここで終わりにしよか。
アシュトーシュ、サスキア、ジュリアン、ゴッド・バディ、シッド、スリーピーヘッド、シカン、エド、サラ、アメリー、ヤサルス、エヴァ。スクロール、スクロール、スクロール、スクロール、フリゴ、ソタキ、ジャマル、ラフル。みんな聞いてくれてありがとう。ええ週末を過ごしてな。
もう一回ショファーを吹いてみるわ。でもこれ、マジで吹くの難しいねん。穴がめっちゃ小さいから、こんな感じで...ほな、やってみるわ。

生成分子動力学

いいなと思ったら応援しよう！