2024年ノーベル化学賞(補足):AI革命までのたんぱく質構造予測・設計
2024年ノーベル化学賞の補足です。公式サイトが公開したこちらを主に参考にしています。
大きく2グループに分かれますが、共通なのはたんぱく質の3次元構造をコンピュータを使って予測した点です。
今回はその予測方法(アルゴリズム)を軸に、その歴史的なブレークスルーについて紹介します。
そもそもですが、たんぱく質は、アミノ酸が結合されて形成されます。それも段階的なステップで平面から立体的に拡張されていきます。
たんぱく質の機能は、単にそれを構成する遺伝情報だけでなく、それがどのように立体的に折りたたまれているのかも関わってきます。
アミノ酸の1次元遺伝(塩基配列)情報はDNA配列からプログラミングされます。興味深いことに、その立体化はアミノ酸の配列から一意に決まることが発見されました。(1972年 クリスチャン・アンフィンセン)
これにより、アミノ酸配列から3次元たんぱく質の構造を予測する道が拓かれます。
ただ、取りうる3次元構造のパターンが天文学の数字となってしまうのが悩みの種でした。
計算科学が主役に躍り出るまでは、どんなたんぱく質でもある程度共通のブロック(レゴブロックみたいなイメージ)がみつかり、それと化学的(疎水・親水性など)な結合特性を踏まえて人力で構造を予測していました。
そんな中でコンピュータによる計算を使ったパイオニアとなったのが、1997年にダヒヤットとメイヤーによる試みです。ジンクフィンガー(下図)という単純(30個のアミノ酸)なたんぱく質の構造予測として、膨大な組み合わせを検索させました。
アルゴリズムとしては、下記2つを採用しています。
・デッドエンド除去(無駄な領域を間引きエネルギー最小化の原理を応用)
・モンテカルロ法(乱数発生で膨大な試行で正解に近づく)
それに次いで飛躍的にその予測精度を高めたのが、今回の受賞者デイビッド・ベイカー教授です。
先にその予測精度が分かる図を紹介します。
まだ一部ブレはありますが、それでも従来性能比では相当な進化を遂げました。
ベイカー教授が開発したアルゴリズムは、上記2つを改善させたものともいえます。エネルギー最小化の原理を採用してますが、従来のような無駄な領域を除去する方式ではなく、下記を変数として最適解を探索しています。
・ファンデルワールス相互作用(原子間の引力と斥力)
・水素結合(タンパク質内部や外部との水素結合)
・静電相互作用(荷電残基間の引力や斥力)
・疎水性効果(疎水性残基が内部に、親水性残基が外部に配置される傾向
ユニークなのがビッグデータとの相関性を取り入れた点です。このころ(20世紀末)にはたんぱく質データが集まり始めていて、そこからの類似パターンを抽出して組み立てる手法も取り入れました。
これらの推定方法をランキングすることで、その性能を高めることに成功しました。これが(冒頭記事で触れた)Rossetaと呼ばれるソフトウェアです。
このソフトウェアが画期的だったのが、構造予測だけでなく、自然にはないたんぱく質を設計することもできた点です。
次回は構造予測の精度をさらに改善させたAlphaFoldのアルゴリズムについて紹介したいと思います。