Evolutionary-scale prediction of atomic-level protein structure with a language model
https://www.science.org/doi/abs/10.1126/science.ade2574
本研究の学術的背景,研究課題の核心をなす学術的「問い」は?
タンパク質の一次配列から直接原子レベルのタンパク質構造を予測することは非常に困難であり、実際的な方法が必要とされていた。本研究の学術的背景や核心となる問いは、大規模な言語モデルを用いてタンパク質や類縁タンパク質から推定された実験的構造情報を学習することで、一次配列の情報だけから原子レベルのタンパク質構造を予測することができるかどうかという点である。
本研究の目的及び学術的独自性と創造性は?
本研究の目的は、大規模な言語モデルを用いて、一次配列の情報から原子レベルのタンパク質構造を直接的に予測することである。学術的独自性と創造性は、大量の言語モデルを用いてタンパク質構造の予測能力を向上させ、高速な構造予測の実現を可能にしたことである。
本研究の着想に至った経緯や,関連する国内外の研究動向と本研究の位置づけは?
以前、タンパク質の原子レベルの構造を一次配列から予測するという試みは困難であったが、本研究では大規模な言語モデルを用いることで構造の推定が可能であることが示された。関連する国内外の研究動向は、ディープラーニング技術を用いたタンパク質の学習が進んでおり、遺伝子配列から構造や機能を予測することに取り組まれている。
本研究で何をどのように,どこまで明らかにした?
本研究では、言語モデルを用いて一次配列情報から原子レベルのタンパク質構造を直接的に予測することが可能であることが明らかにされた。言語モデルが拡張されると、構造データが学習され、高速で構造を予測することができるようになるため、大規模なメタゲノムタンパク質配列の構造解析を実現することができた。本研究では、ESM Metagenomic Atlasというデータベースを構築し、617 million以上のメタゲノムタンパク質の構造を予測した。
本研究の有効性はどのように検証した?
本研究における有効性の検証は、大量のメタゲノムタンパク質の構造予測と、従来の手法との比較実験を用いて行われた。ESMFoldは、アラインメントベースの方法に匹敵する予測精度を有し、かつ高速であることが実証された。ESM Metagenomic Atlasを用いて構築されたデータベースから、新たなタンパク質構造における地球や海洋の多様性を把握することができるようになった。
この記事が気に入ったらサポートをしてみませんか?