人工知能がタンパク質の3次元形状を予測。
Nature Briefingは2021年11月23日に、AI(Artificial Intelligence/人工知能)ツール「AlphaFold2」や「RoseTTAFold」などの深層学習アルゴリズムは、タンパク質の線形配列から3次元形状を予測することができるようになり、構造生物学者に大きな恩恵をもたらしていると報告した。
科学ソフトウェアがこれほどセンセーショナルな見出しをつけることはめったにない。
BBCは「One of Biology's biggest mysteries 'large solved' by AI」と宣言。
フォーブス(Forbes)は「AIにおける最も重要な成果-これまでにない」と評した。
Google DeepMindが開発したタンパク質の立体構造を予測すAIシステム「AlphaFold2」が2020年11月に登場するという話題は、2021年07月にツールが自由に利用できるようになって以来、ますます高まっている。
https://time-az.com/main/detail/75687
これは、タンパク質分子の機能的な折り畳み構造を、その直線的なアミノ酸配列から、3次元空間における各原子の位置に至るまで予測するという、生物学上最も困難な問題の1つを解決できる可能性がある。
しかし、タンパク質がどのようにして3次元構造を形成するのか、その物理化学的なルールは複雑すぎて人間には解析できないため、この「タンパク質フォールディング問題(protein-folding problem)」は何十年もの間、未解決のままだった。
研究者たちは、これまでに、あらゆる生物界から集められた約16万種類のタンパク質の構造を解明してきた。研究者たちは、X線結晶構造解析やcryo-EM(cryo-electron microscopy/低温電子顕微鏡/クライオEM)などの実験技術を駆使し、その3D情報をProtein Data Bankに預けている。計算生物学の研究者たちは、これらの手法を補完するソフトウェアの開発で着実に成果を上げ、よく研究されているタンパク質ファミリーの一部の分子の3D形状を正しく予測することができた。
しかし、このような進歩にもかかわらず、研究者は約4,800種類のヒトタンパク質の構造情報を持っていなかった。しかし、「AlphaFold2」は、構造予測戦略を次のレベルに引き上げた。
例えば、スペインの研究者による独自の分析によると1、このアルゴリズムの予測によって、構造情報が得られないヒトタンパク質の数がわずか29にまで減少したという。
「AlphaFold2」は、2020年11月に開催されたCASP14(the 14th critical assessment of protein structure prediction)で発表された。CASP14は、2年に1度開催されるコンテストで、計算生物学の専門家が、構造が実験的に解明されているにもかかわらず一般に公開されていないタンパク質を対象に、アルゴリズムをテストするという。深層学習と呼ばれる高度な機械学習技術を用いたDeepMind社のソフトウェアは、競合他社を圧倒した。
アナーバーにあるミシガン大学の生物化学者で、CASP14の準優勝者の中にアルゴリズムが含まれているヤン・ツアン(Yang Zhang)は、CASP14の結果に基づくと、全体で約3分の2のタンパク質を実験的な精度で得ることができ、難しいターゲットであっても約3分の1のタンパク質を実験的な精度で折り畳むことができます。」と語る。
「これは非常に素晴らしい結果です」と述べている。
その後、Nature誌に掲載された2本の論文2,3や、数十件のプレプリントによって、「AlphaFold2」の予測能力はさらに実証された。
ヤン・ツアンは、「AlphaFold2」は深層学習の能力を顕著に示しているが、タンパク質の折り畳み問題に対する部分的な解決策に過ぎないと考えている。このアルゴリズムは、構造情報がない場合でも、多くのタンパク質や一部の多タンパク質複合体について高精度の結果を出すことができる。これにより、実験的な構造生物学を飛躍的に加速させ、タンパク質工学や創薬の研究の指針となる可能性がある。
しかし、一部のタンパク質については、重要な詳細情報が得られないままである。マサチューセッツ州ボストンにあるダナ・ファーバーがん研究所の計算生物学者クリス・サンダー(Chris Sander, a computational biologist at the Dana-Farber Cancer Institute in Boston, Massachusetts)は、複数の機能ドメインや非常に動的な構造をもつ複雑なタンパク質を対象とした場合、アルゴリズムはまだ苦戦すると指摘する。
「彼らが成し遂げたことは素晴らしいことです。」「しかし、タンパク質の柔軟性とその変化の仕方はそれでは触れられず、単一のスナップショットを持つだけでは、生物学的機能の問題を解決することはできません。」と言う。
しかし、タンパク質生物学を包括的に理解するには、より広範な計算・実験ツールが必要になるだろう。
深層学習(Deep learning)とは、データのパターンを認識・解釈するために、計算機上のニューラルネットワークを学習させる機械学習戦略のことである。
シアトルのワシントン大学の計算生物学者デビッド・バーカー(David Baker, a computational biologist at the University of Washington in Seattle)は、「これらのモデルは、構造を一度に予測しようとするのではなく、物理的なシミュレーションのように、構造を改善するためにどのような動きをすればよいかを学習しているのです」と述べている。膨大な量の注釈付き実験データを用いてアルゴリズムを学習させることで、配列と構造の関連性を明らかにし、新しいタンパク質の予測につなげることができる。
この5年間で、複数のチームが構造予測への深層学習の適用に向けて前進している。「AlphaFold」の最初のイテレーションは、2018年のCASP13で優勝したが、そのパフォーマンスは、2020年見られた目立った勝利には及ぶことができなかった。その後、ツアン・ラボの「D-I-TASSER4」、バーカー・ラボの「trRosetta5」、イリノイ州シカゴにある豊田工業大学のJinbo Xuらのチームが開発した「RaptorX6」など、いくつかの学術研究室が第1世代のAlphaFoldを上回る深層学習ベースのアルゴリズムを開発した。
しかし、これらのアルゴリズムは通常、大規模なソフトウェアパイプラインの一部として適用されるため、エラーや非効率が生じる可能性がある。
ニューヨークにあるコロンビア大学のシステムバイオロジストである藻はマッド・アル・クライシ(Mohammed AlQuraishi, a systems biologist at Columbia University in New York City)は「バラバラに構築されていたため、異なるコンポーネントが相互に連絡を取り違えたり、最適なコミュニケーションが取れないことがよくありました。このような限界があるため、配列から構造までのプロセス全体を管理するエンドツーエンドのアルゴリズムへの関心が高まっています。」と述べている。
ロンドンに拠点を置くDeepMind社のシニアリサーチサイエンティスト、ジョン・ジャンパー(DeepMind senior research scientist John Jumper, who is based in London)によると、CASP13の後、彼のチームは第一世代のAlphaFoldを実質的に破棄し、そのようなソリューションである「AlphaFold2」の開発に着手したという。
「AlphaFold2」のいくつかの側面は、既存の技術に基づいている。例えば、このアルゴリズムでは、まずMSA(multi-sequence alignments/マルチシーケンスアラインメント)を生成し、構造が不明な新しいタンパク質を他の種の関連する配列と比較する。並行して変化する共進化アミノ酸を特定することで、アルゴリズムは、折り畳まれたタンパク質の中で互いに関連する可能性の高いアミノ酸を探し出すことができる。つまり、配列の1つの変化が、全体の構造を維持するために補償的な変異を必要とする場所になる。
サンダーは、共同研究者であるマサチューセッツ州ケンブリッジのハーバード大学の計算生物学者デボラ・マークス(his collaborator, computational biologist Debora Marks at Harvard University in Cambridge, Massachusetts)とそのチームとともに、2017年にこの共進化に基づく手法を開発しました。
サンダーは.「進化を利用して正しいフォールドと基本的な形状を得ることで、多くのタンパク質に対して全面的に機能した最初のソリューションでした。」「そして今回、機械学習によって、さらに優れたものになりました。」と言う。
「AlphaFold2」の開発者は、MSAを構築するために、韓国ソウル大学の計算生物マーチン・スタインガー(computational biologist Martin Steinegger at Seoul National University in South Korea)とドイツゲッティンゲンのマックスプランク生物物理化学研究所のヨハネス・ゼーディング(Johannes Söding at the Max Planck Institute for Biophysical Chemistry in Göttingen, Germany)がまとめたデータセットから、何十億ものタンパク質の配列を利用して、これまでにない量の情報を得た。
マーチン・スタインガーは「検索可能なデータベースにしてほしいと言われました。」と語る。
DeepMind社のチームは、タンパク質の折り畳み問題に対する革新的なソリューションも考案した。ひとつは、画像解析や自然言語処理でよく使われるトランスフォーマー(Transformers)と呼ばれるパターン認識ツールの利用である。トランスフォーマーは、データの解釈の指針となるような単語の羅列や隣接する視覚的要素など局所的なパターンを認識するように設計されている。
DeepMind社は、これらのトランスフォーマーを、タンパク質の構造という難易度の高い分野に適応させ、最終的に折りたたまれた形で重要となる可能性の高い長距離のタンパク質相互作用を特定し、焦点を当てるトランスフォーマーを構築した。「最終的なタンパク質の構造では、例えば、残基10が残基350と会話するなど、かなり離れたもの同士が結びつきます。」とDeepMind社のシニアリサーチサイエンティスト、ジョン・ジャンパーは言う。
「AlphaFold2」が登場してから論文が発表されるまでに時間がかかったことと、学術関係者の間で詳細な情報が公開されるかどうかが不透明だったため、デビッド・バーカーと彼のポスドクであるミンギョン・ペク(Minkyung Baek)は、ソフトウェアのアーキテクチャに関するわずかな情報をもとに、独自のバージョンである「RoseTTAFold8」を開発した。「RoseTTAFold8」は、「AlphaFold2」と同じ戦略を採用しているが、いくつかの特徴的な工夫が施されている。
2021年07月に「AlphaFold2」がリリースされて以来2、研究室ではこのソフトウェアとその構造予測を利用することを切望しており、これらの予測は欧州バイオインフォマティクス研究所(European Bioinformatics Institute)がホストするデータベースを通じて利用可能である。
データベースをダウンロードするためには数テラバイトのディスクスペースが必要で、解析を処理するためには複数のGPU(グラフィック・プロセッシング・ユニット)を必要だが、一般的にユーザーはこのソフトウェアを簡単に使いこなせると考えている。
ストックホルム大学のバイオインフォマティシャンであるArne Elofsson(bioinformatician Arne Elofsson at Stockholm University)は、「単一構造の計算はそれほど悪くありません。しかし、その規模と必要なリソースから、生物の全タンパク質(プロテオーム)を解析することは、ほとんどの学術研究機関では当分の間、手が届かないと思われます。
このソフトウェアを試してみたいという研究者のために、マーチン・スタインガーらは、Googleが提供するリモートデータベースとコンピューティングパワーを利用して、「AlphaFold2」と「RoseTTAFold」の両方を実行するクラウドベースのシステム、「ColabFold」を開発した9。Webベースのインタフェースは比較的シンプルである。「配列を入力してボタンを押すだけで、構造を予測してくれます。」とマーチン・スタインガーは言う。しかし、構造予測の反復回数を変更するなど、ユーザーが設定を変更して実験を最適化することも可能である。