AIがタンパク質折りたたみ問題を解決し、ノーベル賞を獲得するまで
9,825 文字
これらは生命に不可欠な微視的な分子機械です。何百万年もの進化を経て、さまざまな重要な機能を果たすようになりました。これがタンパク質です。50年以上もの間、生物学者たちはタンパク質が機能を果たすために折りたたまれる仕組みという謎の解明に取り組んできました。その努力は途方もないものでした。
しかし最近の大きな挑戦の中で、DeepMindのチームは人工知能を使ってタンパク質の謎の重要な部分を解き明かしました。あなたのグループはCASP14で驚くべき成果を上げました。本当にショッキングでした。この breakthrough は生物学の新時代の扉を開きました。AIの革命とも言えるでしょう。人類が設計したタンパク質によって世界の大きな問題を解決できる未来を予告しています。
常にフロンティアを押し広げていきたいものです。これはAIがタンパク質折りたたみのコードを解読した内側の物語であり、この3人の研究者たちが2024年のノーベル化学賞を受賞した画期的な科学の物語です。
タンパク質は少なくとも37億年前に初めて出現しました。それ以来、自然は数え切れないほどの分子の驚異のバリエーションを生み出してきました。
これらは仕事をする分子です。他の分子と相互作用し、他の分子を構築し、分子を分解します。消化作用や病原体から私たちを守る抗体など、生化学反応を触媒する酵素も含まれています。タンパク質は私たちの細胞を機能させ、体中の分子の流れを制御しています。
また組織に構造を与え、筋肉を動かすなど、さらに多くの機能を果たしています。これらは全て化学反応の結果であり、生命の化学を理解するためには、これらの分子の構造を理解する必要があります。タンパク質の特定の分子機能は、その3次元的な折りたたまれた形状の産物です。
タンパク質は非常に正確な形状に折りたたまれ、それを毎回行い、その形状が生物学的機能を果たします。この折り紙のような形状は、その主要な構造成分であるアミノ酸の配列によって決定されます。全てのタンパク質は20種類の異なるアミノ酸がポリペプチドと呼ばれる鎖状につながって構築されています。
細胞内で最初に組み立てられた時、タンパク質は折りたたまれていません。アミノ酸は首飾りの玉のように一列につながっています。これらのアミノ酸は無数の配置で組み合わされて異なるタンパク質を形成することができます。特定のタンパク質のポリペプチド配列のレシピは細胞のDNA内にコード化されています。
1969年、生物学者のサイラス・レベンサールは一つのパラドックスを観察しました。どんなタンパク質でも、小さなものでさえ、可能な折りたたみ配置の数は天文学的です。それらを全てランダムに試すと宇宙の年齢よりも長い時間がかかる可能性があります。しかしタンパク質は1秒以内に確実に機能的な形状に折りたたまれます。
このプロセスの背後にある謎は「タンパク質折りたたみ問題」として知られるようになり、3つの密接に関連する問題で構成されています。アミノ酸の配列がどのようにしてタンパク質の最終的な3D形状をコード化するのか?折りたたみの各段階はどのようなものか?そして3つ目は、3D構造を計算機で予測する方法は何か?タンパク質折りたたみ問題は構造生物学と呼ばれる研究分野の重要な課題です。
構造生物学者は正式には構造として知られるタンパク質の形状を研究して、それらがどのように機能するかを解明しています。3D構造があれば、これらの分子がどのように振る舞い機能するかを本当に理解し始めることができます。タンパク質構造のより良い理解は、鎌状赤血球症やアルツハイマー病のような誤って折りたたまれたタンパク質に関連する多くの病気の治療法につながる可能性があります。
本当の約束は特定のターゲットに対する新しい薬の設計です。より安価で迅速なバイオ医薬品の開発が可能になります。1957年、生化学者のジョン・ケンドリューは X線結晶解析と呼ばれる技術を使って最初の原子レベルのタンパク質構造を明らかにしました。この方法は構造生物学者にとって最も重要なツールの1つとなりました。X線結晶解析の最初のステップでは、目的のタンパク質を精製して結晶として濃縮します。
この高度に秩序だった配列を形成することは、しばしばプロセス全体で最も困難な部分です。結晶は高強度のX線ビームの経路に置かれ、回転させられます。X線は結晶の原子を取り巻く電子から反射し、検出器に当たる前に散乱します。結果として得られる回折パターンはコンピュータによってタンパク質の電子密度の3Dマップに変換されます。
ここからは、ジグソーパズルを解くようなものです。既知のタンパク質配列からのアミノ酸を3Dマップに当てはめて、タンパク質の構造モデルを作成します。当初、研究者たちはボールとスティックを使ってモデルを手作業で構築し、このジグソーパズルを解いていました。後に、この作業を加速するための計算ツールが開発されました。
この作業に必要な努力は莫大です。10万ドル程度の費用と、博士課程の学生が2年かける時間を考えてみてください。たった1つの構造を得るのに本当に莫大な投資が必要なのです。1970年代、研究者たちのコンソーシアムはタンパク質データバンク(PDB)を開始して、決定された構造を カタログ化し始めました。
タンパク質構造内の各原子の位置は3次元座標のセットとして記録されました。今日、PDBには20万以上のタンパク質の構造データが含まれています。核磁気共鳴や極低温電子顕微鏡(クライオEM)のような新しい技術により、研究者たちはより大きなタンパク質や複雑な分子集合体も調べることができるようになりました。
しかし、これらのイメージング技術の進歩にもかかわらず、アミノ酸の直鎖が実際にどのように3D機能的形状に折りたたまれるかの多くは依然として謎のままでした。1960年代、生化学者のクリスチャン・アンフィンセンはタンパク質折りたたみパズルの重要な部分を解読しました。彼は後にこの発見でノーベル賞を受賞しました。一連の実験で、彼は溶液中でタンパク質を変性させ、それらを展開して機能を停止させました。
条件を元に戻すと、タンパク質は天然の形状に再び折りたたまれ、機能を回復しました。アンフィンセンの研究により、タンパク質の3次元構造とそれに到達するための折りたたみステップに必要な全ての情報は、アミノ酸の配列の生化学的性質にのみコード化されていることが明らかになりました。
これは、展開状態から折りたたまれた状態に移行するために他の生物学的な機械は必要ないことを示唆しています。それは一方から他方に到達するための計算的手法を使用できることを意味します。20種類の異なるアミノ酸は全て一連の分子的特徴を共有しており、中心の炭素原子に3つのグループが結合しています。
正に帯電したアミノ基、負に帯電したカルボキシル酸基、そして水素原子です。また、R基と呼ばれる可変の側鎖も結合しています。R基はアミノ酸に独自の生化学的機能を与えます。タンパク質の直鎖状の骨格、つまり一次構造は、1つのアミノ酸のアミノ基が別のアミノ酸のカルボキシル基と反応することで形成され、これはペプチド結合と呼ばれます。
ここから、タンパク質は折りたたみ経路に沿って一連のステップを辿ります。最初、直鎖状のポリペプチド鎖は局所的に相互作用します。折りたたまれる時、タンパク質は最低エネルギー状態を探します。これは物理系では一般的なことです。骨格は捻れて折りたたまれ、2つの主要な二次構造を形成します。
アルファヘリックスは骨格の巻かれた部分です。一方、ベータシートは隣接するアミノ酸鎖がつながって形成されます。どちらも水素結合によって固定されています。次にタンパク質は、主にアミノ酸側鎖によって駆動されて、より複雑な三次構造に折りたたまれます。これらのR基は異なる化学的性質を持ち、それらの相互作用と環境との相互作用の両方が折りたたみプロセスを方向付け、折りたたまれた形状を安定化します。
鎖は本質的に全てのアミノ酸構成要素がエネルギー的に好ましい環境を持つような密な構造に折りたたむことができます。そしてこれが安定な物体となります。一部のポリペプチドは他のものと組み合わさって、四次構造として知られるより大きな複合体を形成します。最終的な、つまり天然の形状に折りたたまれると、タンパク質は鍵と鍵穴のように特定のターゲット分子に結合して、その生化学的機能を果たします。
生物学は計算科学になりつつあると言われていますが、これは確かにそうです。生物学的システムの複雑さは、多くの計算インフラなしには扱えないと思います。1990年代までに、コンピュータ技術の進歩によりX線結晶解析を使用したタンパク質構造の同定プロセスが加速されました。
90年代初頭、世界中で1年に約100の構造しか得られませんでした。90年代末には、ほぼ毎月100の構造が得られるようになりました。一部の研究者たちはプロセスをさらに加速させるために、全く新しい計算アプローチを求めました。それは基本的に、理解していなくても問題に何か単純なものがあるという考えに基づいていました。
しかし、コンピュータコードを使ってタンパク質折りたたみ問題を解決しようとした初期の試みは、それが違うことを証明しました。その時点で、私たちは本当にとても、とても、とてもまずい状態でした。それが私に、より明確さと厳密さを得て物事を前進させる方法を考えさせるきっかけとなりました。そこでジョン・モールトは、後に2年に1度の構造予測の重要な評価チャレンジ(CASP)となるコミュニティサイエンス実験を共同設立しました。
CASPのアイデアはとてもシンプルです。私たちは実験家たちに、あなたが今解いたものは何ですか?と尋ねます。未発表の新しく同定されたタンパク質構造のアミノ酸配列が計算科学者たちに予測のために渡されます。そして私たちは2つを比較することができます。予測が実験家の構造にどれだけ近いかに基づいて、結果は0から100のスケールでスコアが付けられます。
長年の基準は90に到達する必要があるということでした。1994年に開催された最初のCASPチャレンジで、計算科学者たちはうまくいきませんでした。誰もタンパク質構造を予測できないことが判明しました。彼らは完全に間違えていました。尊敬される実験家たちがステージに立って、笑いころげていました。
「君たちはなんて馬鹿なんだ!」と。私たちは冗談で、ああ、まだ10年は仕事があるねと言っていました。それでもCASPチャレンジは即座に影響を与えました。このひとつの指標の周りにコミュニティを組織化し、何が機能して何が機能しないかを全員が見ることを可能にしました。生化学者のデイビッド・ベーカーにとって、CASP-1の結果は刺激となりました。
私が本当に興味を持っていた問題が、いわば未開拓だということを意味していました。そこでベーカー研究室は取り組み始めました。実際の折りたたみプロセスを探るための実験を考案しました。自然がどのようにそれを行っているかを理解できれば、計算機でも同じような近道を使うためのアルゴリズムが示唆されるだろうという考え方がありました。
ベーカーのチームはその後、彼らが発見したことをRoseTTaというコンピュータプログラムに組み込みました。RoseTTaは実際の折りたたみプロセスを模倣しようとする物理モデルです。これらの原子間には多くの微細な相互作用があり、それら全てを完璧にシミュレートする必要があります。鎖の各部分が異なる可能な状態をサンプリングして、全てがうまく組み合わさる組み合わせを見つけようとしています。
2002年の第5回CASPの頃には、多くの研究者がベーカーと同じ質問をしていました。物理ベースの方法を使って原子レベルの精度に迫ることができるでしょうか?そしてその点で多くの励みとなる進歩が見られました。しかし10年以上にわたって大きなブレークスルーがない中、ディープラーニングと呼ばれる新しい計算ツールが登場しました。
ワオ。ワオ。みなさん、今夜ここで歴史が作られるのを目撃しました。Googleが所有する人工知能企業DeepMindが設計したディープラーニングアルゴリズムが、かつては不可能だと考えられていたことを成し遂げました。そのAIは非常に複雑な囲碁のゲームで人間のグランドマスターに勝利しました。AIの開発はまだ初期段階ですが、まだ多くの未解決の問題があります。
囲碁や他のいくつかのゲームを習得した後、DeepMindの創設者デミス・ハサビスは新しい挑戦を求めました。囲碁の試合中、ハサビスは大学時代にFoldItというインタラクティブなコンピュータゲームをプレイしていたことを思い出しました。FoldItはデイビッド・ベーカーの研究室が設計したもので、誰でもタンパク質折りたたみ問題に挑戦できるようになっていました。
デミス・ハサビスは長い間この問題に興味を持っていました。彼は、生物学について何も知らないDeepMindのエンジニアたちがタンパク質を折りたたむAIを設計できるだろうかと考えました。まだ何を改善できるでしょうか?2017年、理論化学者のジョン・ジャンパーがDeepMindチームに加わりました。AlphaFold 1の開発はすでに進行中でした。
そして私はおそらく違いを生む可能性のある小さな調整を見ていくことになるでしょう。チームのアプローチは、画像認識で一般的に使用されていたものと同様でした。かなり標準的な機械学習で、その周りにタンパク質の知識をシステムに組み込みました。タンパク質的な入力があり、タンパク質的な出力がありました。
当時のタンパク質データバンクにある136,000の構造でシステムを訓練した後、DeepMindはタンパク質科学者たちと競争する準備ができました。2018年、DeepMindはCASP 13に参加しました。ディープラーニングを使用していたのは彼らだけではありませんでしたが、AlphaFoldのタンパク質構造予測は首位に立ちました。
構造の精度に非常に大きな違いをもたらしました。他の何よりも優れていましたが、まだそれほど素晴らしいものではありませんでした。私たちは世界があまり得意ではない問題で世界最高のチームでした。ここからできるだけ早く倍増する必要があります。そこで再びCASPに参加する予定です。
DeepMindチームにとって、それは設計図に戻ることを意味しました。ニューラルネットワークの中核部分、タンパク質の物理学に関する洞察、タンパク質の進化に関する洞察を再設計しました。新しいアルゴリズムであるAlphaFold 2は次のように機能します。タンパク質のアミノ酸配列がシステムに入力されます。
アルゴリズムは次に、他の生物で見つかった類似のタンパク質配列を探して複数の遺伝子データベースを検索します。これらの関連配列は配列として整列され、多重配列アラインメント(MSA)と呼ばれる表現を作成します。MSAには異なる生物間でのタンパク質の進化に関する情報が含まれています。
次に、AlphaFoldはターゲット配列内の全てのアミノ酸ペア間の空間的関係をコード化する行列を生成します。これはペアワイズ表現と呼ばれます。折りたたまれたタンパク質のどの部分が互いに近接しているかを示す2次元画像を生成することができます。この行列はタンパク質の3D形状の2次元マップと考えることができます。
MSAとペアワイズ表現は、強力なニューラルネットワークであるトランスフォーマーと呼ばれるEvoformerモジュールに入力されます。Evoformerはセルフアテンションと呼ばれる技術を使用して、データを動的に更新しながら意味のある情報を効率的に抽出します。私たちはタンパク質の進化と、タンパク質の幾何学について私たちが信じていることとの間の対話を設定しています。
改良されたペアワイズ情報は、構造モジュールと呼ばれる別のトランスフォーマーに渡され、そこでタンパク質の折りたたまれた構造の初期推測を生成するために幾何学的な計算が行われます。この予測は最終出力を生成する前に、アルゴリズム全体を通して循環させて改良されます。
AlphaFoldはまた、タンパク質構造の異なる部分の予測にどの程度自信があるかのスコアも明らかにします。CASP 14は2020年のパンデミック中、全員がロックダウン中に戻ってきました。DeepMindチームは新しい予測アルゴリズムをテストに供しました。ジョン、この図は私たちが苦戦しているものですか?実は、この領域ではかなり良い成績を収めています。
数ヶ月後、結果が出始めました。AlphaFold 2の多くの予測が90以上のスコアを獲得しました。本当にショックでした。これらを見て、本当にこんなに良いのか?何が起こっているのか?と考えていました。ジョン・モールトからのメールを読みます。あなたのグループはCASP 14で驚くべき成果を上げました。他のグループと比較しても、モデルの絶対的な精度においても。
この仕事、おめでとうございます!AlphaFold 2の成功には複数の要因がありました。重要な一つは新しいアルゴリズムの設計でした。機械学習の言葉で言う帰納的バイアスと呼ばれる、タンパク質についての私たちの理解の一部を組み込みました。そしてデータから非常に急速に学習しました。
そしてタンパク質データバンクはAIの訓練に特に適したデータセットを提供しました。データは物理学の基本的な法則に従っているので、モデルが学習できるものがあります。情報の質と量が合わさって、ディープラーニング手法を機能させるのに理想的に適合しました。
DeepMindの成果は科学界に大きな波紋を投げかけました。メディアはタンパク質折りたたみ問題が本質的に解決されたと宣言しました。解決されたとはどういう意味ですか?どういう意味で解決されたのでしょうか?私は本当に興奮していました。多くの同僚たちは、暗い未来を語っていました。人々は仕事を失うことを恐れていました。
私はよく、これを悲しみの6段階と表現します。否定から始まり、最後に受容に至ります。2022年7月までに、DeepMindは世界中で知られているほぼ全ての2億1800万のタンパク質の構造予測を公開していました。彼らはコードを広く利用可能にしました。これは素晴らしいリソースとなっています。
AlphaFold2は生物学者たちの新しい時代の到来を告げました。全ての実験家がAlphaFoldを解決への手助けとして試すようになり、時には何年もの時間を節約することができます。あなたが問うことのできる質問のレベルが上がりました。AIの革命です。以前は実験的に解決できなかった問題に適用し始めます。
ベーカー研究室にとって、これは新しい独自のタンパク質を合成するプロセスであるタンパク質設計にAIを応用することを意味しました。私たちの仕事は大まかに3つの一般的な分野に分かれます。最初は医療、2番目はエネルギーと持続可能性、3番目は新しい技術です。新しいタンパク質を設計するために、ベーカー研究室の研究者たちは分子ターゲットを選択します。
彼らの目標はこのターゲットの形状に結合するタンパク質を作ることです。最初に、ターゲットの形状はRFdiffusionと呼ばれる生成AI システムに入力されます。DALL·Eのようなアルゴリズムがプロンプトから画像を生成するのと同じように、RFdiffusionはターゲットの形状に合わせてタンパク質構造の骨格を生成します。
完全にランダムなノイズから始めて、徐々にノイズを除去していくと、完全に新しいものですが、完全に妥当なタンパク質構造のように見えるものが出来上がります。拡散アルゴリズムがタンパク質構造の3Dモデルを生成すると、別のソフトウェアが与えられた構造に折りたたまれる可能性のあるアミノ酸配列を決定します。
このパズルには多くの解がありますが、全てが機能するわけではありません。そこで配列はAlphaFold 2のような予測AIに入力され、設計通りに折りたたまれる可能性が高い候補を確認します。最後のソフトウェアは、細胞内で与えられたアミノ酸配列を生成するDNA配列を決定します。
このDNA配列は合成のために研究室に送られます。全く新しいタンパク質を作る場合、それらをコードする遺伝子は存在しないので、これらのタンパク質をコードする合成遺伝子を作る必要があります。研究者たちは次に合成遺伝子断片をバクテリアに導入し、タンパク質を生産させます。バクテリアは基本的にタンパク質を作る工場となります。
最後のステップでは、クライオEMのようなイメージング技術を使用して、研究室で生産されたタンパク質の形状がコンピュータで予測されたものと同じかどうかを確認します。私たちは今、はるかに洗練されたタンパク質を設計することができ、それらはより正確で安全なものになるはずです。医療を超えて、私たちは太陽光を捕捉し、そのエネルギーを利用する改良された方法に取り組んでいます。
私たちは有毒化合物を分解する改良された方法にも取り組んでいます。新しいAIタンパク質折りたたみ予測ツール群が生物学の多くの側面を変革しましたが、それらの応用には限界があります。それらはタンパク質の構造のみを予測しますが、実際にはタンパク質は単独では機能しません。
しかし私たちが答えないままにしたのは、タンパク質が細胞の他の部分とどのように対話するのか、ということでした。これらは細胞の機械です。細胞内で多くの本当に重要なことを行っています。細胞内では、タンパク質はDNA、RNA、金属を含む様々な分子と相互作用します。生物学を本当に研究するために、それらの分子がどのように絵の中に組み込まれているかを理解する必要があります。
そこでベーカーのチーム、DeepMindなどが、これらの複雑な相互作用を予測できるAIアルゴリズムの開発を開始しました。楽しい部分は、これまで見たことのない例を見始めていることです。2024年春には次世代のAI予測ツールがリリースされました。ベーカー研究室はRoseTTAFold All-Atomをリリースし、これはタンパク質と他の小分子の集合体の3D構造を予測します。
タンパク質配列と化学構造、つまり原子と結合の両方をモデルへの入力として取り、それらの組み合わせの構造を作ることができます。その直後にDeepMindはAlphaFold 3をリリースしました。多くの新しい科学を解き放つと考えられる本当に信じられないような改良です。AlphaFold 3は拡散ベースの方法を追加して、結合構造と他の分子とのタンパク質の相互作用の両方を予測します。
AlphaFold 3は信じられないようなシステムですが、私はこれらの問題が解決されたとは呼びません。AIによって推進されるこの新しい計算生物学の時代において、CASPの主催者たちはチャレンジの未来を再考する必要がありました。2020年のAlphaFoldの結果で、一部の人々は、もう終わりですよね?たぶんモールトはようやく去って黙るでしょう、と言いました。
しかし私たちの観点からすると、実際にはCASPにとって非常に刺激的な拡大の時期です。常にフロンティアを押し広げていきたいものです。技術の移行期において、これは非常に強い時期です。私にとって、それは非常に興奮させられることでした。2024年10月、デイビッド・ベーカー、ジョン・ジャンパー、そしてデミス・ハサビスは、タンパク質構造予測と設計に関する彼らの仕事でノーベル化学賞を共有しました。
理解すべきことがまだたくさんあります。これは始まりに過ぎません。