デミス・ハサビス ノーベル化学賞2024年受賞講演
9,500 文字
次の講演者はデミス・ハサビスです。1976年にイギリス・ロンドンで生まれ、2009年にユニバーシティ・カレッジ・ロンドンで博士号を取得しました。現在はロンドンを拠点とするGoogle DeepMindのCEOを務めています。では、デミス博士のノーベル賞講演にお越しいただき、皆様でお迎えしましょう。
まず初めに、スウェーデン王立科学アカデミーとノーベル委員会に、生涯最高の栄誉を賜りましたことに感謝申し上げます。今日ここに多くの家族や親しい友人、同僚の皆様にお集まりいただき、素晴らしい日々となっています。
これからAlphafoldとその影響についてお話ししますが、Alphafold開発に至るまでの重要な取り組みや、より広くAIの科学における将来についても触れたいと思います。
私のAIへの道のりは、意外にも、特にチェスというゲームから始まりました。4歳でチェスを始め、イングランドジュニアチェスチームのキャプテンとして非常に競技的にプレイしていました。右の写真は9歳の時、イングランドU-11チームの1枠でプレイしている私です。幼い頃からチェスを真剣にプレイすることは、非常に形成的な経験でした。私にとっては、思考そのものについて考えるきっかけとなりました。私たちの心がどのようにしてこれらのアイデアや計画、戦略を生み出すのか、そしてそれをどのように改善できるのかということに魅了され、興味を持ちました。
トレーニングキャンプの一環として、このFidelity Chess Challengerのような初期のチェスコンピュータにも触れる機会がありました。初期のチェスコンピュータを覚えている方もいらっしゃるでしょうが、駒を動かすには実際にボード上のLEDのマスを物理的に押さなければなりませんでした。もちろん、これらのマシンはチェススキルを向上させるために使うことになっていましたが、私は誰かがこのプラスチックの塊をプログラミングして、私と対戦できるチェスをプレイさせることができたという事実に魅了されました。
これに興味を持ち、本を読み始め、11歳の時に最初のAIプログラムを、真ん中に写っている私の愛用のAmiga 500でコーディングしました。古典的なオセロゲームをプレイするプログラムでした。この私の最初のAIプログラムは、弟に勝つことができました。確かに当時彼は5歳でしたが、それでも誰かが自分とは独立して何かができるものを作れるということに驚きました。それ以来、私はコンピュータとAIに魅了され続けています。
それから20年以上後、ゲームは依然として私のAIへのアプローチの中心にありました。実際、DeepMindでの初期の取り組みの核心部分でした。2010年にDeepMindを汎用人工知能を構築することを使命とする産業研究所として設立し、現代のベル研究所のようなものを作るというビジョンを持っていました。
当初、ゲームをAIの完璧な実証の場として使用しました。なぜなら、コンピュータ上で多くのデータを生成することが非常に容易で、システムに自己対戦させることができ、また明確な目標や改善のための明確な指標を設定することが容易だからです。ほとんどのゲームでは、スコアを最大化するか、ゲームに勝つことを指定できるので、アルゴリズムのアイデアで進歩しているかどうかが非常に明確です。
もちろん、AIゲームの頂点は、実はAIの始まりから長い歴史を持っています。アラン・チューリングやクロード・シャノンのような先駆者たちも、チェスコンピュータの製作やプログラミングに挑戦しました。しかし、AIゲームの頂点は碁でした。古代からの碁は、おそらく人類が考案した最も複雑なゲームです。
碁がいかに複雑かを示す一例として、可能な局面数が10の170乗あり、これは宇宙の原子の数よりも多いのです。そのため、総当たりで解を見つけるプログラムを書くことは不可能でした。
私たちの最初の大きなブレークスルーは、2016年のAlphaGoシステムでした。韓国のグランドマスター、イ・セドルに4-1で勝利を収めた有名なソウルでの対局でした。しかし、単に試合に勝っただけでなく、重要なのは、碁が数千年プレイされてきたにもかかわらず、これまで見たことのない新しい創造的な戦略やアイデアを生み出したことです。
これらの新戦略の中で最も有名なのが、右下に示している第2局の第37手です。黒石が赤で囲まれています。この手は、トップレベルの碁では前例のないものでした。そしてAlphaGoが100手先を見越してその手を打っていたかのように、この第2局を決定づける完璧な手となりました。
これをどのように実現したのでしょうか。AlphaGoシステムとその後継のより汎用的なAlphaZeroは、私たちが自己学習と呼ぶプロセスを通じて碁やその他の二人対戦ゲームをマスターしました。これらのシステムは直接解を与えられるのではなく、自分自身で何十万回、実際には何百万回もの対戦を行い、その過ちから学び、戦略を改善していくことで、碁の有用なニューラルネットワークモデルを構築することができました。
2016年のAlphaGoの結果は、現代AIにおける一つの分水嶺となりました。これらの学習システムが、不可能と考えられていたかなり印象的なことができるという最初の大きな証明となったからです。
この新しいネットワークモデルを使用することで、碁やその他の複雑な空間における可能性のすべてを探索する必要なく、効率的に探索プロセスを導くことができます。この漫画的な図では、碁のゲームにおける可能性の木を示しています。木の各ノードが特定の碁の局面を表し、どの手を打つかを決定する必要があり、それによってこの木を下っていきます。
任意の碁の局面から、扱いきれないほど膨大な可能性の集合があるのです。この新しいネットワークモデルにより、AlphaGoはすべての可能な経路のうちのごく一部、青い経路で示されているものだけを分析し、考慮することができます。これは、任意の局面において最も有望な手を見つけ出し、また現在の局面から黒または白がどちらが勝つ可能性が高いか、勝つ確率の推定値を算出することで実現しています。
そして、1〜2分程度の思考時間が経過すると、それまでに見つけた青い線の中から最適な線、この場合は紫色の線を出力します。
ゲームAIの頂点を攻略したことで、私たちはこれらの技術と手法を実世界の問題、特に科学における大きな課題に取り組むことができると確信しました。
では、このようなAI手法で取り組むのに適した問題とは何でしょうか。私たちは3つの基準を設けています。
第一に、膨大な組み合わせ探索空間を通る経路を見つけることができるか、問題をそのような形で表現できるか。
第二に、最適化や改善のための明確な目的関数や指標を指定できるか。ゲームでは、これは勝利やスコアの最大化と簡単です。
第三に、ニューラルネットワークモデルを学習させるための多くのデータが利用可能か。理想的には、より多くの合成データを生成できる正確で効率的なシミュレータがあることです。
実際、このように問題を見ると、このプロファイルに合う、あるいは合わせることができる実世界の問題は多くあります。科学における多くの問題も含まれます。私にとって、これらのシステムでやりたかった最優先の課題はタンパク質折りたたみでした。ケンブリッジの学部生時代にこの魅力的な問題に初めて出会って以来、常にリストのトップでした。
先ほどお聞きになったように、タンパク質は生命の基本的な構成要素です。筋肉繊維の収縮からニューロンの発火まで、あらゆる生物のほぼすべての生物学的プロセスがタンパク質の働きに依存しています。本質的に、タンパク質は精巧なナノスケールの生体機械と考えることができ、もちろん驚くべき美しさも持っています。
タンパク質は、左に例示されているようにアミノ酸配列によって指定され、これらの配列は複雑な3D構造に折りたたまれます。例えばこのタンパク質は右に示すような美しい構造に折りたたまれます。ビーズの紐が玉に丸まるようなものと考えることができます。タンパク質の3D構造を知ることで、その機能について多くのことがわかり、もちろん疾病の理解や創薬の加速化にも重要です。
では、タンパク質の3D構造は、1次元のアミノ酸配列のみから直接予測できるのでしょうか。1972年のノーベル賞講演で、クリスチャン・アンフィンセンは理論的にはこれが可能であるはずだと有名な推測を行い、システムの自由エネルギーを最小化する形状をタンパク質が一意に取るという熱力学的仮説を提唱しました。これは「タンパク質折りたたみ問題」として知られるようになり、このグランドチャレンジへの計算による解を見つけるための50年にわたる探求が始まりました。
なぜこの問題はそんなに難しいのでしょうか。もちろん、タンパク質の構造を見つける通常の方法は実験的に行うことですが、これは非常に骨の折れる困難な作業で、単一のタンパク質の構造を決定するだけでも数ヶ月、さらには数年かかることもあります。
レベンタールは、この困難さを「レベンタールのパラドックス」として見事に表現しました。彼は、典型的なサイズのタンパク質には最大で10の300乗もの可能なコンフォメーションがあり得ると推定しました。これは真に天文学的な数字です。
明らかに、これらすべての可能性を列挙するには宇宙の年齢よりも長い時間がかかります。しかし、自然界ではこれらのタンパク質は時には数ミリ秒という短時間で自発的に折りたたまれます。これは、解が存在するはずだという希望を与えてくれます。なぜなら、自然界では折りたたみプロセスを非常に効率的に導くようなエネルギー地形に何らかのトポロジーが存在するはずだからです。そして、おそらくその過程を再現できるかもしれません。
この課題に取り組んだもう一つの重要な側面は、学習に利用できるデータが容易に入手可能であり、さらに非常に重要なことに、AIの開発において進捗を測るための明確で優れたベンチマークが存在したことです。
数十年にわたる実験的な研究の結果、何万人もの実験研究者による膨大な努力により、約17万個の構造が実験的に決定され、Protein Data Bank(PDB)に集約されました。これは信じられないほど貴重なリソースで、私たちはAlphafoldの学習の出発点としてこれを使用しました。
そして第二に、1994年以来ジョン・モルト教授と同僚によって2年ごとに開催されているCASPコンペティションがありました。これは構造予測のゴールドスタンダードベンチマークと考えられ、最高の計算システムをテストするものです。
このコンペティションの素晴らしい点は、ブラインド評価コンペティションだということです。予測しようとするタンパク質の構造は実験的に発見されたばかりで、まだ公開されていません。そのため、それらのグループ以外の誰も、それらの構造を知らないのです。これは、これらの計算システムが本当に可能かどうかの真のテストとなります。
実験研究者にとって実用的な計算システムの重要な閾値は、原子の幅以内、つまり平均して1オングストローム未満の誤差という信じられないほど高い精度が必要だと常に言われていました。
Alphafold 2でこの原子レベルの精度を達成しました。2016年にAlphafold 1から始め、2018年のCASP 13(第13回CASP)に初めて参加しました。この棒グラフで進歩を見ると、これは各回のCASPでトップチームの勝利スコアを示しています。予測が真の値にどれだけ近いかを示す距離の尺度として表されています。それ以前の約10年間、これらの予測の精度を向上させる大きな進歩はありませんでした。
Alphafold 1はCASP 13のリーダーボードでトップとなり、予測精度を大幅に向上させました。これはシステムの中核要素として機械学習を導入した初めてのケースでした。しかし、グラフの90 GDTスコアラインで示される原子レベルの精度にはまだ達していませんでした。Alphafold 1からの学びを活かし、Alphafold 2として全く新しいシステムを再設計し、CASP 14に参加することで、必要な原子レベルの精度に到達し、主催者からこの問題は本質的に解決されたと宣言されました。
これがAlphafold 2の革新的なアーキテクチャの図です。技術的な詳細についてはジョンの講演に任せますが、大きなポイントは、この問題を解決するための特効薬はなく、Alphafold 2は実際に十数個の異なる革新を、私たちがハイブリッドシステムと呼ぶかなり複雑なものに組み込む必要があったということです。
その重要な点の一つは、システムのアーキテクチャに進化的および物理的な制約を、システムの学習コンポーネントと共に組み込み、これら二つの要素を組み合わせることでした。これが機能した鍵は、Alphafoldチームが専門の生物学者や化学者、機械学習やエンジニアリングの専門家で構成される学際的なチームだったということです。
それはアミノ酸配列から始まり、3D構造予測を直接出力する完全なエンドツーエンドのシステムでした。多くの反復ステップを通じて予測を繰り返し改良できるリサイクリングステージを使用しました。CASP 14のこの複雑なタンパク質で見ることができます。左側に緑色の真の値と青色の予測が重なっているのが見え、右側ではAlphafold 2がこの場合192ステップにわたって最終的な予測構造まで、毎回精度を改善しながら反復しているのが分かります。
Alphafoldシステムを手に入れた後、もちろん可能な限り最大の影響を与えたいと考えました。Alphafoldは非常に正確なだけでなく、非常に高速でもあり、科学が知るすべてのタンパク質、つまり配列が分かっていて構造を知りたい約2億個のタンパク質を実用的に折りたたむことができるほど高速だということにすぐに気付きました。
次の1年かけて、私たちのコンピュータで2億1000万個のタンパク質を折りたたみ、Alphafoldをオープンソース化し、欧州バイオインフォマティクス研究所(EMBL-EBI)の素晴らしい同僚たちとAlphafoldデータベースを構築し、これらの予測構造をすべての人が自由に制限なく利用できるようにしました。
もちろん、安全性と倫理性に配慮し、データベースを公開する前に30人以上のバイオセキュリティとバイオエシックスの専門家に相談し、利点がリスクを大きく上回ることを確認しました。
これまでの影響は私たちの想像を超えるものでした。世界中から200万人以上の研究者がAlphafoldとその予測を利用し、3万件以上の引用があり、生物学の標準的なツールキットの一つとなっています。
Alphafoldが加速に貢献した進歩のほんの一部を挙げると、実に幅広い問題に及びます。私のお気に入りのいくつかは、新しい酵素の設計によるプラスチック汚染への取り組み、世界の貧困地域に影響を与える資金不足の疾病への対応、核孔複合体の構造決定のような基礎的な構造生物学の課題、そして最近では数週間前に生殖における新しいメカニズムの発見などです。私たちはAlphafoldのような
プログラムが与える影響の始まりに過ぎないと考えています。
もちろん、私たちはAlphafoldの開発を続けており、今年初めに最新版のAlphafold 3をリリースしました。これも大きな進歩です。Alphafold 2は本質的にタンパク質の静的な画像、その構造がどのように見えるかを解決したと考えることができますが、もちろん生物学は信じられないほどダイナミックで、実際に生物学で興味深いことは、生物学の異なる側面が相互作用するときに起こります。
Alphafold 3は相互作用とダイナミクスをモデル化する最初のステップであり、タンパク質と他のタンパク質との間の対をなす相互作用だけでなく、タンパク質とRNA、タンパク質とDNA、タンパク質とリガンドとの相互作用もモデル化することができます。これは、創薬などにAlphafoldを使用するために必要なものへの大きな一歩です。
最後のセクションでは、少し視点を広げて、この種の研究や同僚たちの研究が科学的な努力に与える影響について少しお話ししたいと思います。
一歩下がって、AlphaGoやAlphafold、そして私たちが構築した他のシステムが本質的に何をしているのかを見てみると、それらは巨大な組み合わせ探索空間における最適解を見つけていると説明できます。これは、データやシミュレーションから環境のモデルを学習し、そのモデルを使って、最適化しようとする何らかの目的関数に従って探索プロセスを導くことで実現しています。
これは非常に一般的な解決策であり、多くの問題がこのアプローチに適合することが分かりました。先ほど碁のゲームで最善手を見つけるための木構造の図をお見せしましたが、それらの碁の局面のノードを化合物設計に置き換えることも容易で、化学空間を通じて最良の分子や最良の薬剤化合物を見つけるための探索の木として考えることができます。ここで概説した同じような技術をこの種の問題に使用できると思います。
つまり、私がデジタル生物学と呼ぶ新しい時代に入りつつあるのかもしれません。私は常に、生物学をその最も基本的なレベルで情報処理システムとして考えることができると考えてきました。それは驚くほど複雑で創発的なものですが。
システムが非常に複雑なため、生物学の仕組みを数個の数学的方程式に還元することは難しいと思います。数学は物理現象、物理学を記述するための信じられないほど素晴らしいツール、記述言語でした。同じように、AIは生物学のための完璧な記述言語になる可能性があり、Alphafoldはその証明点となり、10年後や20年後に振り返ったとき、このデジタル生物学の新時代の幕開けを助けたのかもしれません。
私たちはそれに貢献しようとしています。数年前にIsomorphic Labsという新会社を立ち上げ、Alphafoldを基盤として、AIを使って創薬プロセスを一から再考することを目指しています。非常に困難で時間のかかる高価なプロセスである創薬を、年単位から月単位、いつの日か週単位にまで短縮できるかもしれません。
私たちは時々、Alphafoldとタンパク質構造、そして将来的には創薬でも起こり得るこのような加速されたプロセスを、デジタルスピードでの科学と考えています。実は、いつかは仮想細胞全体をシミュレートできるようになりたいという長年の夢を持っています。タンパク質一つや相互作用する数個のタンパク質だけでなく、細胞全体をシミュレートし、その予測が実験に役立つようになることを。
これはノーベル賞講演なので、クリスチャン・アンフィンセンの1972年の講演の精神に則り、いくつかの新しい、やや挑発的なアイデアで締めくくりたいと思います。
実はAlphaGo以来、古典的なシステム、古典的なコンピューティングシステムの限界について多く考えてきました。現在、コンピューティングの分野では量子コンピュータと古典的システムについて大きな議論が行われています。現代のコンピュータの基礎となっている古典的なチューリングマシンは、おそらく私たちが以前考えていたよりもはるかに多くのことができると思います。
どのようにしてそれが可能なのでしょうか。それは、事前に膨大な量の計算を行い、それを使って解決しようとしている問題の、環境の良いモデルを開発し、このモデルを使って多項式時間(複雑性理論で言う効率的な時間)で解空間を効率的に探索することによって可能になります。
私が考えている緩い仮説は、自然界で生成または発見できるパターンや構造は、古典的な学習アルゴリズムによって効率的に発見およびモデル化できるのではないかということです。
これはすべてを意味するわけではありません。パターンや基礎となる構造を学習する余地のない自然界に存在しない多くの量子システムは除外されます。例えば、大きな数の因数分解や、そのような抽象的な問題などです。しかし、タンパク質や物質などの自然界のシステムは、私が今日概説したようなプロセスで学習できる構造を潜在的に持っているのではないかと思います。
そして、古典的なシステムがある種の量子システムをモデル化できることが判明した場合、PとNPを含む複雑性理論の分野や、情報理論のような物理学の基本的な側面にもいくつかの大きな影響を与える可能性があります。
最後に、ここでは生物学とライフササイエンスのためのAIについて多く話してきましたが、実際にDeepMindでは科学全般、医学、気候、数学など多くの分野で研究を行っています。
ここに示すのは、過去数年間に行った研究の一部です。今日お話しした一部のAI技術を、医用画像の分析と診断、遺伝子配列とミスセンス変異が良性か病原性かの特定、核融合炉のプラズマの制御、行列乗算のような高速アルゴリズム、最先端の気象予測システム、これまでに見たことのない数千の新材料の発見など、さまざまな分野に応用しています。すべてAIを基礎的なツールとして科学に活用しています。
これらの新しい強力なAIツールの助けを借りて、新しい発見の黄金時代に入りつつあるのかもしれません。もちろん、私は人類の最大の課題を解決する上で信じられないほどの可能性があると考えているため、生涯をAIに捧げてきました。
しかし、AIは二重目的技術であり、責任を持って安全に構築し、すべての人の利益のために使用されなければなりません。そのためには、この分野の最前線にいる科学者や技術者が、これらのシステムをどのように展開し、最も効果的に使用すべきかについて、政府から学界、市民社会まで、幅広い利害関係者の意見を取り入れることが重要だと考えています。
AGI(汎用人工知能)のような変革的な技術は、火や電気の発明に匹敵するものになると思います。この信じられるほど強力な技術の開発の次の段階を乗り切るには、特別な注意と先見性が必要です。
しかし、この技術を安全に導くことができれば、AGIは私たちの周りの宇宙と、その中での私たちの位置を理解するための究極の汎用ツールになる可能性があります。
最後に、今日ここにいらっしゃるほぼすべてのAlphaチーム、AlphaGoとAlphaZeroのチーム、この場で見てきたすべての研究を支える素晴らしいサポートとインフラを提供してくれたDeepMindとGoogleの広範な同僚たち、EMBL-EBI、CASPコミュニティ、PDBと実験生物学コミュニティの素晴らしい共同研究者たち、そして最後に最も重要なこととして、今日ここにいらっしゃる素晴らしい家族、親しい友人、同僚の皆様に感謝申し上げます。皆様の愛情、支援、励ましがなければ、これらのことは何一つ実現しませんでした。ありがとうございました。