徒然なるままに論文を読んでみた#2
こんばんは。今日も面白そうな論文をシェアしていきます。その前にちょこっと自己紹介↓
東京大学教養学部理科三類所属の学生です。生成AI・バイオ(代替タンパク質・分子生物学・細胞生物学・合成生物学)・経営・国際政治分野を勉強してます。医学で言えば分子医療とか再生医療、人機融合みたいなところが興味範囲ですかね。
今はAIの波が凄すぎて、「今しかない!」と思い立ち、AIを推進してちょっとでも日本に貢献できたらいいなと思いAIに重点おいてる人間ですが、バイオに触れることでしか得られない栄養素があるので、定期的に触れようとモチベーションを保つために始めました。
なお、完全な論文のまとめを公にすることは、著作権上危ないので、基本的には読解に必要な事前知識やインパクトを述べて、読書日記にするつもりです。論文紹介系の著作権侵害説に関する考察は以下のnoteが詳しいので参照してください。
本日の論文
今日私が扱うのは、2023年1月にNature Methodから出た、RoseTTAFoldでタンパク質と核酸の複合体を予測する手法に関する論文です。
著者らが作成したRoseTTAFoldNA(RFNA)は、githubでコードが公開されています!
https://github.com/uw-ipd/RoseTTAFold2NA
論文の内容
凄さを語る
タンパク質はAlpha Fold2で予測できるし、RNAの構造も一応予測できるのに、タンパク質-RNA複合体はそういうツールないじゃん!!というところがモチベーションとなっている論文。
RNAの立体構造形成過程とタンパク質フォールディング、タンパク質-タンパク質複合体とタンパク質-核酸複合体の立体構造が似ているんだから、Alpha FoldやRoseTTAFoldで核酸関連の立体構造を塩基配列から予測できるんでね?という検証を行っています!確かにできたらすごい!
タンパク質はわかるけど、核酸の立体構造なんて知って何の意味があるの?配列さえわかればゲノム工学的にはOKじゃない?って思うかもしれませんが、生体物質で立体構造が重要じゃないってことはあまりありません。というのも、大体の生体物質は何らかのタンパク質(特に酵素)と相互作用するからです。どの酵素と相互作用できるか、タンパク質のどういうアミノ酸配列と相互作用することが多いかを知ることができれば、生命科学の新たな発見につながることは間違いなしです。
また、最近は(といっても結構前)RNAが酵素として働く、リボザイムという一連のRNAが発見されてから、リボザイムの研究も著しいです。リボザイムは酵素ですから、当然立体構造も重要となってきます。
いずれにしても、立体構造を知ることは間違いなく必要です!それが難しい実験とかは抜きに、配列だけでわかってしまうというのは、大革新です。すごい。
具体的に何やってるの?
AlphaFoldは、PDBにあるタンパク質のデータを元に学習すればよかったのでした。しかし、核酸は、タンパク質に比べて構造の柔軟性が高く、不安定であることも多いため、構造データバンクのようなものが欠如おり、これが難しさにつながっていました。
この論文で作成されたRoseTTAFoldNAモデルでは、PDBに含まれる核酸関連のデータは学習に用いつつ、精度を高めるために、レナード・ジョーンズポテンシャルと水素結合のエネルギーを活用しています。
他にも、実際に学習をうまく進めて精度を高めるための手法についてもりもりなので、ぜひ読んでみてください〜