ReCreate | 人工知能による生物学のプログラム化の促進
2024年8月9日、ハーバード大学医学部のOmar O. Abudayyeh氏とJonathan S. Gootenberg氏は、雑誌「Nature Methods」に「人工知能によるプログラム可能な生物学:核酸からタンパク質、細胞へ」と題したレビュー論文を発表しました。著者たちは、人工知能を活用した計算ツールが、生物学的プロセスの理解を深めるだけでなく、分子や細胞の工学的アプローチを通じて、生物を精密に制御し、設計することを可能にしていると述べています。つまり、生物の「プログラミング」が現実のものとなっているのです。
機械学習の大きな進展は通常、大量のデータに依存しています。例えば、MetaのLlama 3.1モデルは、150兆のトークンを用いて訓練されています。現在のところ、タンパク質構造予測の分野ではデータが十分に豊富であり、モデルはタンパク質の三次元構造を正確に予測し、理想的な性能と精度を達成しています。しかし、仮想細胞のようなより複雑なモデルにおいて同様の理想的な結果を得るためには、より多くのデータが必要です。特に、実験におけるさまざまな調整要素に関するデータが重要です。これらの追加データは、モデルが仮想細胞の行動や反応をより正確にシミュレーションすることを可能にし、モデルの精度と性能を向上させます。従来の大規模言語モデル(LLM)は、強化学習+人間のフィードバック(RLHF)や強化学習+AIのフィードバック(RLAIF)を通じて、顕著な最適化が行われてきました。一方、生物学的モデルの分野では、コンピューターモデルと実験(ウェットラボ)との間で絶えず反復し、フィードバックを行うことにより、モデルの性能を大幅に向上させることが可能です。
人工知能による生物学のプログラム化:核酸からタンパク質、そして細胞へ
人工知能(AI)駆動の計算ツールは、生物学的プロセスの理解を深めるだけでなく、分子や細胞工学を通じて生物を精密に制御し、設計することを可能にしています。つまり、生物の「プログラミング」が現実のものとなりつつあるのです。
過去の1世紀にわたり、生物学に対する理解は現象学(Phenomenology)からプログラマビリティ(Programmability)へと進化しました。かつては、ただ生物を観察するだけでしたが、現在では、私たちは生物を積極的に操作し、設計できるようになりました。この変化は、いくつかの大きな生物学的革命によってもたらされました。例えば、分子生物学における基本的な原理とメカニズムの解明、高度なバイオサンプル解析法(単細胞シーケンシングなど)の開発、新たな精密生物学的ツール(CRISPRなど)の設計などが挙げられます。特に、RNA制御やゲノム編集技術といった新しい分子技術は、DNA、RNA、タンパク質といった中心的な原則における操作を可能にしました。これにより、基礎生物学の理解が深まるだけでなく、さまざまな疾患に対する新しい治療法の開発も促進されました。
そして今、私たちはもう一つの革命を目の当たりにしています。それは、AIを活用して、核酸からタンパク質、さらには細胞に至るまで、生物をプログラムする新たな能力を解き明かすことです。
現在、膨大な規模のゲノム、タンパク質、細胞データの存在と、それらが新しいタンパク質ツールの開発に果たす重要な役割により、AIを活用した手法が生物プログラミング能力の向上において顕著な役割を果たしています。例えば、米国国立生物工学情報センター(NCBI)には、すでに200万を超える原核生物のゲノムと4万を超える真核生物のゲノムが配列決定されており、人類細胞地図プロジェクト(Human Cell Atlas)では、6000万以上の細胞がシングルセルシーケンシングによって解析されています。これほどのデータ量は前例がなく、モデル構築に必要な巨大なデータベースを提供しています。CRISPRのような手法は、自然界のシステムに対する理解を基に開発されました。
さらに、真核生物や原核生物の何百万ものゲノムが配列決定され、ペタバイト(PB)規模のデータが蓄積されている今、これらのデータから学び、拡張することで、新たな細胞制御の方法を創出するチャンスが広がっています。しかし、AIの生物プログラミングにおける潜在的な応用は、単なるツール開発にとどまりません。新たな研究プロジェクトでは、これらのツールを使用して細胞を制御し、多様な細胞データを収集しています。これらのリソースが統合されることで、AIを活用した全細胞モデルの実現が見えてきます。これにより、コンピューター内で細胞の運命やその応答を予測し、プログラムすることが可能になるでしょう。
本質的に、細胞をプログラムする能力は、細胞を精密に操作できるツールの存在に依存しています。これらのツールには、小分子、抗体、転写因子、そしてプログラム可能な核酸標的酵素が含まれ、AIを活用した新しい方法の発見、設計、創造に対して広範な進化の可能性を提供しています。特に、ゲノム編集分野はこれらの方法の応用で先頭を走っており、新しい多機能ツールの発見と生成によって、CRISPRツールキットがさらに豊かになることが期待されています。
従来、CRISPR効果タンパク質のような遺伝子編集ツールは、微生物の多様性を活用し、主に2つの方法で発見されてきました。1つは、従来のバイオインフォマティクス手法を使用して識別・スクリーニングする方法です。もう1つは、微生物学の専門家が自らの知識や経験を基に、応用可能な遺伝子やタンパク質を特定する方法です。このアプローチにより、よく知られたCas9(Streptococcus pyogenes由来)から、さまざまなCas9ホモログ、さらに全く異なるCRISPR効果タンパク質ファミリー(Cas12、Cas13、Cas7-11など)が発見されてきました。
しかし、これらの従来手法では、微生物の多様性を十分に探索しきれていません。加えて、取り扱うゲノムデータの膨大な増加と、タンパク質ファミリー間の多様性(異質性)のため、これらの方法の限界が浮き彫りになりつつあります。ここで、最先端のAI技術が役立ちます。深層神経ネットワーク(大規模言語モデル)は、数千に及ぶゲノムデータを訓練することで、さまざまなタンパク質システムを学習・理解し、新たな遺伝子編集機能を持つ「遠縁」のタンパク質を発見する可能性があります。AIを活用したこうした探索手法は、CRISPR関連ツールの発見に限らず、あらゆる興味あるシステムにおける自然界のツールの発見に応用できます。
CRISPR酵素のような新しい分子ツールの発見は、ほんの始まりに過ぎません。自然酵素の活性は、遺伝子編集への直接的な応用には不十分なことが多く、効率、特異性、柔軟性を向上させるために、酵素工学手法(合理的変異誘発や指向性進化)が必要です。しかし、可能性のある変異の組み合わせが非常に多いため、このプロセスは多くの労力を要し、時には実現困難です。ここでもAIが役立ちます。AIを活用したタンパク質最適化手法では、タンパク質構造モデリングや機械学習を用いた変異誘発と指向性進化によって、これらの酵素の機能をより迅速に最適化できます。この手法は、複数の酵素ドメインを組み合わせる必要がある高度な遺伝子編集技術において特に重要です。
ゲノムデータの蓄積と新たなタンパク質を発見する能力の向上により、酵素工学のプロセスは、既存のタンパク質を最適化するだけでなく、新たな酵素や制御ツールをゼロから生成することが可能になりました。生成モデルは、ゲノムやメタゲノムの多様性データを学習し、異なるタンパク質カテゴリーの特徴を理解することで、新たな機能性タンパク質配列を創出できるようになります。AIが生成するこれらのタンパク質は、訓練されたヒューリスティック関数と組み合わせることで、特異性、効率、分子サイズなどの特性を最適化することが可能です。AI手法は、新しいタンパク質を生成するだけでなく、自然界に存在しない複雑な遺伝子編集機能をデザインすることも可能です。
また、AIを活用したタンパク質発見と工学技術は、プログラム可能な遺伝子編集システム(CRISPR効果タンパク質およびその派生物)にとどまらず、転写因子など他の細胞制御ツールの開発にも応用できます。転写因子を基にした細胞運命の再プログラミングは、急速に進展している分野であり、新しい組み合わせスクリーニング手法や解析技術を用いて、新たな細胞状態や細胞型の転換を目指しています。遺伝子編集ツールの開発で得られた知見を活かし、転写因子タンパク質を工学的に改変することで、その再プログラミング能力をさらに向上させることができます。
AIが設計した転写因子タンパク質は、過去に困難とされていた細胞の変換や老化組織の再生など、細胞運命の新たな制御を実現する可能性を秘めており、細胞調節ツールの急速に成長するライブラリをさらに拡充しています。しかし、AI設計のタンパク質ツールは多くの面で大きな進展を遂げたものの、現状ではすべてのタンパク質カテゴリーに適用できるわけではなく、特定のタンパク質に対して大量の事前学習や微調整が必要です。将来的には、より洗練されたアーキテクチャとデータ量の増加によって、汎用的なAI設計フレームワークが実現し、AIによる酵素の潜在能力が十分に引き出されることが期待されています。
こうした細胞調節ツールの進化は、私たちが細胞を研究し、操作する能力を大幅に強化しています。特に、これらの調節技術が高次元のシングルセル解析手法(RNAシーケンシングであるPerturb-seqやATAC-seq、イメージングや空間シーケンシングなど)と組み合わせることで、細胞環境内の新たな機能や相互作用が前例のない形で明らかにされるでしょう。このデータの統合によって、AIモデル、特に大規模言語モデルを基にした「バーチャル細胞(virtual cells)」の構築が現実味を帯びてきます。これらのバーチャル細胞は、細胞生物学をシミュレートし、細胞の反応を予測することが可能です。
しかし、現時点でのバーチャル細胞モデルの精度は初期段階にあり、差異的な遺伝子発現の変化を予測する能力や、細胞内の遺伝子発現分布を再構築する力に欠けています。著者たちは、遺伝子編集や調節ツールを改良し、高次元スクリーニング手法と組み合わせることで、より優れたモデルが作成されると考えています。このようなモデルは、実際の細胞が同様の調節を受けた際の反応を予測し、自動で洞察を生成し、仮説を立て、実験計画を設計できるようになるでしょう。
バーチャル細胞モデルの最も有望な応用の一つは、新薬の発見と開発です。研究者は、仮想細胞上で候補化合物の効果をシミュレートすることで、新たな薬物ターゲットを効果的に特定し、分子や抗体の効能や副作用を予測することができます。この計算機ベースのスクリーニング手法は、従来の高額かつ時間のかかるin vitroおよびin vivo実験に先立ち、標的遺伝子や候補分子の優先順位を迅速に決定し、薬物開発のプロセスを大幅に加速します。特に、AI支援のスクリーニング手法が遺伝子編集や他の核酸調節ツールと連携することで、この進展はさらに加速されるでしょう。
著者たちは、バーチャル細胞が主導する新たな生物学的理解のパラダイムが、特に老化などの課題に対して大きな影響を与えると予測しています。これらの分野では、解明されていない生物学的問題が依然として有効な治療法の開発を阻んでいます。コンピューターベースの細胞モデルが進化し続けることで、現行の技術的制約を打破し、科学研究や治療への応用に新たな可能性を開くことが期待されます。
AIとゲノムツールの統合は、遺伝子編集ツールの設計と効率を向上させ、複雑なバーチャル細胞モデルの構築を推進する、新しい発見と革新の時代の到来を予感させます。このAI駆動の未来を推進する鍵はデータの可用性にあり、「ラボ・イン・ザ・ループ(lab in the loop)」AIモデルを統合するアプローチは、データ収集を集中的に進め、これらのモデルをより速く改善する助けとなるでしょう。