2024年ノーベル化学賞(補足):Alphafoldの医療革命
前回の続きです。
今回は、もう1つのグループ、デミス・ハサビス(DeepMind創業者)と研究リーダーのジョン・ジャンパーの開発したアルゴリズムの紹介です。
まず、この組織(今はGoogleに買収)が話題になったのは、2016年に世界囲碁チャンピオンを破ったAlphaGoというAIを開発したことです。
実はそのころからAlphaFold(タンパク質が折りたためられる(Fold))のプロジェクトが始動していました。
名前が継承されているのは、同じくニューラルネットワークというアルゴリズムが底流にあるからです。(そもそもDeepMindがその多層化である深層学習に特化した企業)
深層学習にもさらに流派があり、畳み込み型を採用していました。主に画像認識で定評があります。
その前提となるのが、タンパク質データの学習によります。ビッグデータの時代ですね。
その学習から3次元構造における距離の確率分布マップを作成しました。このマップから、平均力のポテンシャルを構築し、勾配降下アルゴリズムによって最適化して構造を⽣成することができました
3次元タンパク質構造解析には、その精度を競うコンテストがありCASP(Critical Assessment of protein Structure Prediction)と呼ばれます。
Alphafoldは2018年から参入し、そのVersion2含めて一気に精度を高めます。公式サイトからその推移を引用しておきます。
初代以上にインパクトを与えたのがVersion2(2020年登場)なので、そちらの話に絞ります。
精度が90%ということは、1Å(オングストロームで10の-10乗)で原子単位の誤差です。
同じAlphafoldなのに、なぜここまで変わったのか?
一言で言えば、前述の畳み込み方式を捨てて、Transformerという完全リニューアルのアルゴリズムを採用したことです。
Transformerと聞くと、AIに詳しい人はおなじみの「生成AI」の根幹技術として採用された計算方式です。2017年にGoogleがオープンソースとして公開しました。
ざっくり分けて「1.Evoformer」「2.Structure module」の2ステージで構成されます。
1で2種類のデータ(異種配列の情報と、ペア距離の情報)を相互学習させて学習させます。
その学習後データで、2の3次元構造を調整して反復的に更新します。ここでTransformerの中核技術である「Attention」の仕組みを取り入れています。
Alphafold2で急速に精度予測が可能になり、さらに素晴らしいことにその予測結果をすべてオープンデータとしてアクセス可能な状態にしています。
それによって、各研究者が都度構造解析していたタンパク質を、このデータバンクを使うことで作業生産性が飛躍的に高まったと思います。
ノーベル賞と聞くとどうしても何の役に立つの?という月並みなツッコミが聞こえてきそうですが、現在Version3まで育ったAlphafoldは異常タンパク質による疾患の治療に貢献しています。
医療行為ですのでもう少しその臨床的結果が見えてくるのは先かもしれませんが、これは控えめに見ても医療改革にふさわしい業績だと思います。