
情報で捉える生物学入門#番外編 【Evo: ゲノムを読み解き生成する基盤モデル】
生物は情報だ。DNAの文字がRNAに変換され、RNAの文字がタンパク質に変換される。細胞の基本要素を構成するこれらの役者についての必要なことは、すべてゲノムに書かれているのだから。
2003年にヒトゲノムの解読が終了した。では、生物学は終わったのだろうか?
もちろんそんなことはない。ゲノムの情報が分かっても、その意味は分からないから。
始まりだった。ヒトゲノム計画が、現在まで続くゲノムの理解の第一歩だったのだ。
いつ終わるのか?多分終わることはないだろう。生物は複雑だから。ただ、2024年ノーベル賞の対象になったタンパク質構造予測が部分的には終わりを迎えたように、いつか生物も一定の精度でゲノムから表現型の予測、シミュレーションができるようになるかもしれない。そんな希望を抱かせてくれるのが、今回紹介するゲノム基盤モデルEvoである。
Nguyen, Eric, et al. "Sequence modeling and design from molecular to genome scale with Evo." Science 386.6723 (2024): eado9336.
Sequence modeling and design from molecular to genome scale with Evo | Science
図の出典
Sequence modeling and design from molecular to genome scale with Evo | bioRxiv
コード
https://github.com/evo-design/evo

Methods
ChatGPTに代表される大規模言語モデルは、多量のデータで学習することで高い汎化性能と生成能力を示す。しかし、大規模言語モデルで一般に使用される構造であるTransformerは一度に扱える入力トークン数に限りがあるため、長いシークエンスを単塩基解像度で扱う必要のある生物学的機能予測への応用が限られていた。
そこで開発されたモデルがHyenaDNAである。HyenaDNAはアーキテクチャーとしてトランスフォーマーではなくデータを制御した畳み込み演算器であるHyenaブロックを使うことで、数万トークンを単塩基解像度で扱うことを可能にした。
図1は、バクテリア、アーキアゲノムを用いた事前学習の成績を複数のモデルアーキテクチャーで比較し、提案モデルEvoが最も良い性能であることを示している。遺伝子発現制御配列からコーディング配列まで長いコンテクストを扱えることは複雑な生命システムをとらえるのに重要(図1A)であり、そのためにHyena層と注意機構の層を9対1の割合で混ぜたStripedHyena構造が提案されている(図1B)。Hyena層は長・短の畳み込みフィルターを併用することでDNAのノイジーなパターンを無視しつつ重要な1塩基入力を見逃さないことを可能にしているようだ。OpenGenomeという300BのDNAシークエンスデータベースをデータとして使用し、事前学習のトレーニング方法は基本的に一般の大規模言語モデル同様入力に続くDNA配列を確率的に予測する自己教師あり学習を用いている。モデルサイズ・計算資源を大きくした場合のスケーリング則を注意機構ベースのトランスフォーマー++、データ制御状態空間モデルのMamba、オリジナルのHyenaとStripedHyenaで比べてみると、TransformerやMambaに比べてHyenaや StripedHyenaが良い成績を収めた(図1F,G)。

Results
図2は、Evoがセントラルドグマの異なるモダリティーの機能を予測できることを示している。タンパク質コーディングDNA、ノンコーディングRNAに1塩基変異が入った際の機能への影響の予測や、制御DNA配列の遺伝子発現への影響をゼロショットで(ファインチューニングせずに)行った(図2A,C,E)。実験データと予測の相関を計算すると、既存のタスク特化型のモデルと同等か、それより良い成績を出すことが出来た(図2B,D,F,G)。

図3は、Evoが新たなCRISPR-Cas 複合体をデザインすることが出来ることを示している。CRISPR-Cas複合体は、tracrRNA, crRNAsというRNAとCasタンパク質からなるRNA-タンパク質複合体で、ゲノムを自由に切り貼りできるゲノム編集ツールとして生物学研究を変革した(図3A)。既存のCRISPR-CasのシークエンスでEvoをファインチューニングすることで(図3B)、プロンプトと同様の種類で、かつタンパク質配列の一致度の高い配列を生成できるようになった(図3C,D)。実際に生成された配列を実験的に合成し機能を調べてみると既存のCRISPR-Cas9と同様狙った配列の切断を行うことが出来た。生成された配列は異なるもののAlphaFold2から予測された構造は一般のCas9と類似しており、一般のCas9に変異を入れた、Cas9っぽくて機能する新たなタンパク質をデザインできたことが示された(図3E,F)。個人的にはゲノム基盤モデルが実際に有用であることを示した点で、最も重要性の高いデータであるように思う。

図5は、Evoがタンパク質突然変異の個体表現型適応度への影響を予測できることを示している。長い入力配列を用いた事前学習を行い(図5A)、タンパク質の翻訳停止を引き起こすような変異が個体の生存に影響するかをゼロショットで予測するタスクを実施した(図5B)。既存のDNA言語モデルよりも高い性能を出すことが出来、遺伝子が必須遺伝子かどうかを6割以上の確率で当てられた(図5C)。これは長いコンテクストを扱うことができるEvoの特性を最大限に生かした応用である。ただし、生存に破滅的な変異かそうでないかの2値分類であり、実際にどのような生物学的プロセス経て細胞死を引き起こしているかの予測は今後の課題といえそうだ。

図6は、Evoはゲノム様の100万塩基にも及ぶ長いシークエンスを生成できる。種名をプロンプトとして入力し、長い配列を生成させると、オペロン様の構造を持つタンパク質コード配列を実際のゲノムと同程度の密度で生成することが出来た(図6B,C)。実際に100万塩基程度の長い配列を生成してコーディンされたタンパク質の構造をESMFoldで予測してみると、既存のタンパク質と似た機能を持つと予測される構造のタンパク質が多数生成されていた(図6D,E)。これは、ゲノムスケールの配列生成というインパクトがあるものの、入力の統計量を学習しただけでもある程度性能がでる可能性があるため、少しデモ的な要素もある図といえそうだ。

Discussion
本研究では、3兆トークン程度のDNAで学習した70億パラメータを持ち、13万塩基を入力出来るゲノム基盤モデルEvoを開発した。分子からゲノムの様々なスケールでゼロショットの機能予測ができ、実際に機能するRNA-タンパク質複合体の生成ができたことも特徴である。
将来的には生物のゲノム全体を生成し、望みの機能を持つ生物を合成することが目標であると述べられている。がん細胞を攻撃する細胞、燃料を作成する微生物、新たな抗生物質の合成などの応用が考えられ、夢が広がる。
今回マルチモーダルと言っているが、結局配列のみを扱っている。配列を抜け出してネットワークなども扱える細胞の基盤モデルができれば面白いだろう。実際に、配列以外のオミクス技術を大規模言語モデルをはじめとするAI技術と組み合わせたバーチャル細胞の構築は、現代の生物学のグランドチャレンジの1つとしてディスカッションされている。また、大規模言語モデルを基盤としている以上現状のそれらの技術の制限は引き継いでおり、CRISPR-Cas複合体で示されたように既存の分子と近い分子は生成できても、まったく新規で、かつ機能するような構造を生成するのは困難なのではないかと思われる(現状の生成モデルは相対性理論をゼロから提唱することはできない)。
参考文献
https://www.cell.com/cell/fulltext/S0092-8674(24)01332-1
Evoは、3兆トークンのDNAデータを使用して学習した70億パラメータを持つゲノム基盤モデルであり、ゼロショットで遺伝子機能の予測やRNA-タンパク質複合体の生成が可能である。このモデルは長いDNAシークエンスを扱い、既存の分子に近い新規分子を生成する能力を持つが、完全に新規で機能する分子を生成するには限界がある。将来的には、がん治療や燃料生産、新規抗生物質の開発などに応用されることが期待され、ゲノム設計の新たな可能性を示している。
サムネイル画像の出典:https://www.science.org/doi/10.1126/science.ado9336