徒然なるままに論文を読んでみた#1

こんばんは。今日も面白そうな論文をシェアしていきます。その前にちょこっと自己紹介↓
東京大学教養学部理科三類所属の学生です。生成AI・バイオ(代替タンパク質・分子生物学・細胞生物学・合成生物学)・経営・国際政治分野を勉強してます。医学で言えば分子医療とか再生医療、人機融合みたいなところが興味範囲ですかね。
今はAIの波が凄すぎて、「今しかない!」と思い立ち、AIを推進してちょっとでも日本に貢献できたらいいなと思いAIに重点おいてる人間ですが、バイオに触れることでしか得られない栄養素があるので、定期的に触れようとモチベーションを保つために始めました。


本日の論文

McBride & Polev et al. AlphaFold2 Can Predict Single-Mutation Effects, Phys. Rev. Lett. 131, 218401 (2023)

今日私が扱うのは、物理学の権威Physical Review Letterから出たAlpha Fold2に関する論文です。

Alpha Foldについてまとめ!!

DeepMindから生まれたAlpha Foldは、AIを活用してアミノ酸配列情報からタンパク質の立体構造を決定するツールです。初期の論文:Jumper, J., Evans, R., Pritzel, A. et al. Highly accurate protein structure prediction with AlphaFold. Nature 596, 583–589 (2021). https://doi.org/10.1038/s41586-021-03819-2
は、鬼のような引用回数(1万回!)で、まあいつかノーベル賞は取るのでしょう。最初期の論文もかなりの引用回数です。これまで化学賞か医学生理学賞かどっちかわからないね〜と言う話が上がってきましたが、今回物理学の権威であるPhysical Reviewに載ったことで物理学賞なんかもあるんじゃないかなって気分になってきてます。Alpha Foldで3賞総なめ!みたいなことになったり笑笑

Alpha Foldとは?

タンパク質は、ご存知の通りアミノ酸から構成されています。しかし、生体内でのタンパク質はアミノ酸組成からだけではわからず、立体構造を特定することが必要です。アミノ酸配列を確定することは比較的簡単なのですが、タンパク質の立体構造は、van der Waals相互作用レベルの弱い相互作用も大きく寄与するため、立体構造を予測するには困難を伴いました。
最初に立体構造が明らかとなったタンパク質はミオグロビン(1960年)で、発見者のケンドリュー、ペルーツは1962年にノーベル化学賞を受賞していますが、ミオグロビンの構造研究が始まったのは1940年代と、まさに十数年をかけて構造を予測していました。この時用いられたのはX線結晶構造解析という手法で、タンパク質溶液を結晶化させたのち、X線を当てて計算することでタンパク質の立体構造を求める手法でした。その後色々な改良が加えられ、CryoEM等の新規観察手法も開発されたことにより、タンパク質の立体構造解析は進みましたが、結晶化条件を特定するのが難しかったり(多くのタンパク質に当てはまる結晶化条件の法則を発見したらノーベル化学賞とれるって駒2の先生が仰ってました)、精度が今ひとつだったりとさまざまに課題を抱えていました。今でなお、タンパク質ひとつの立体構造を実験的に確定するのに数年と数千万〜億単位が必要です。それでも、研究者の地道な努力により数多くのタンパク質立の体構造が明らかにされ、構造生物学分野でのノーベル賞受賞も数多いという状況です。現在、実験によって解明されたタンパク質の数は20万を超えます。タンパク質の立体構造は、Protein Data Bank(PDB)にまとめられています(RSCBPDBjBMRBEMDBPDBe)。そんな中で2021年に登場したのが、DeepMind社のAlphaFoldです。正確にはもっと前に誕生してたのですが、AlphaFold2は実験による立体構造予測と拮抗できる精度90%を達成しました(CASPというタンパク質構造予測コンペで最も高い精度を達成)。先の最初の論文は引用回数もさることながら、インパクトも凄まじいもので、Science誌のBreakthrough of the year 2021に選ばれました。以下冒頭の引用。

In his 1972 Nobel Prize acceptance speech, American biochemist Christian Anfinsen laid out a vision: One day it would be possible, he said, to predict the 3D structure of any protein merely from its sequence of amino acid build-ing blocks. [中略] Now, after nearly 50 years, researchers have shown that artificial intelligence (AI)-driven software can churn out accurate protein structures by the thousands—an advance that realizes Anfinsen’s dream and is Science’s 2021 Breakthrough of the Year.

まさに達成されちゃいましたね笑
AlphaFold2が出てから、これを活用している論文数が爆上がりしています
▶︎DeepMindが出してる解説記事
▶︎AlphaFoldで予測したタンパク質のデータバンク

Alpha Fold2の使い方

実はAlphaFold2、オープンソース化されていて、Google Colabで扱えちゃいます。
▶︎github
▶︎notebook
自分も実際にRas-Raf Complexの構造予測やってみました!タンパク質配列打ち込んで、ちょくちょく設定いじって、実行するだけなので簡単です!

Raf-Ras Complex。無料版でも、タンパク質配列入れるだけでそんなに時間かからず完成。すごい

Alpha Foldの限界

  1. タンパク質のデータベースを元に学習しているため、その他の生物学的知識を反映できていない。例えば、タンパク質形成・フォールディング過程や、部位依存的な特殊な構造などは微妙

  2. タンパク質の構造を静的なものとして捉えてしまうため、タンパク質の動きを捉えられない。(→ここ、生成AI使って自然な動きを再現できるようにしてみませんか??協力者募集中!!)

  3. タンパク質と他の低分子(糖、脂質など)が結合しているタンパク質の形状は予測できない

まだまだ改良点はいろいろありますが、それにしてもインパクトが大きすぎます。どこ行ってもAlphaFoldです。こいつ凄すぎ。

Phys. Rev. のレビュー(本題)

タンパク質構造に対するsingle-mutationの効果を織りこんで、AlphaFold2が構造予測できる可能性に言及した論文。

  1. 局所的なタンパク質の変形による影響を評価するため、実験的に求めた構造とAlphaFoldで予測した構造とに対してEffective Strain(ES)を残基ごとのS_i(距離の評価関数みたいなもの)で計算した。

  2. PDBの構造との相関も多くみられ、ALphaFold2でsingle-mutationの影響を予測することは可能だが、全体構造の予測精度や比較可能なデータの入手に課題があり、AlphaFold2だけで影響を確定するのは難しそう。

  3. 変異がタンパク質の比較的柔軟性が低い領域で生じ、その影響が大きめな場合に、PDBとAlphaFold2の相関は大きかった。

  4. とはいえ、AlphaFoldは“折り畳まれるなら“どのような構造になるのかを予測するのは得意だが、実際に折り畳まれるのか等について予測することはできない。

重要なのは、変異の影響をちゃんと予測できているかに関する評価モデルをちゃんと確立しましたよというところで、結論自体はインパクトで言うと普通と言う感じです。評価モデルとしてESを使う点、PDBとの相関をpLDDT等を用いて判断する点が新しいのかなと。でももうちょい文献読まないとそこら辺の新しさがわからないですね。

定期更新するようにするのでSubscribeしておくんなし!
ではまた〜


いいなと思ったら応援しよう!