見出し画像

ProtGPT2 is a deep unsupervised language model for protein design

  1. 本研究の学術的背景,研究課題の核心をなす学術的「問い」は?

  • タンパク質設計は、特定の目的に合わせた新規なタンパク質の開発を目指すものであり、多くの環境や医療上の問題の解決に貢献する可能性がある。本研究の学術的背景や核心となる問いは、自然のタンパク質の原則に従って、自動的に新規なタンパク質配列を生成することが可能となる、タンパク質空間上の言語モデル「ProtGPT2」を開発できるかどうかという点である。

  1. 本研究の目的及び学術的独自性と創造性は?

  • 本研究の目的は、自然なタンパク質の原則に従った新規なタンパク質配列を高速に生成することができる、タンパク質空間上の言語モデル「ProtGPT2」を開発することである。学術的独自性と創造性は、言語モデルをタンパク質空間上に適用することで、高速で単一のモデルで新規なタンパク質配列を生成することができる点にある。

  1. 本研究の着想に至った経緯や、関連する国内外の研究動向と本研究の位置づけは?

  • 人工知能技術を用いたタンパク質設計の取り組みは、近年ますます注目されており、異なるアプローチが検討されている。本研究に至るまでの着想は、自然言語処理における言語モデルを基に、タンパク質に適用することで高速かつ効率的なタンパク質設計が可能となることが期待できるという考えから生まれた。関連する国内外の研究動向は、言語モデルを用いたタンパク質設計の取り組みが行われると同時に、これまでの手法よりも効果的であることが示されつつある点にある。

  1. 本研究で何をどのように、どこまで明らかにした?

  • 本研究では、タンパク質空間上の言語モデル「ProtGPT2」を開発し、新規なタンパク質配列を生成するに至った。ProtGPT2の生成したタンパク質配列は、自然なアミノ酸価傾向を持ち、約88%は球状のタンパク質であることが示された。さらに、ProtGPT2が生成した配列は、自然のタンパク質とは異なる部位をサンプリングしており、これまでに探索されていなかったタンパク質空間の領域をカバーしているため、大きな創造性を持つことが示された。

  1. 本研究の有効性はどのように検証した?

  • 本研究における有効性の検証は、2つの方法を用いて行われた。1つ目は、ProtGPT2が生成したタンパク質のアルファフォールド予測を行い、自然な構造と大きく異なるものが生成されたことを確認することである。2つ目は、ProtGPT2が生成したタンパク質をデータベース上の既知のタンパク質配列と比較し、類似性を検討することである。結果として、ProtGPT2が自然界のタンパク質に類似する構造のタンパク質を生成するという可能性を示すものであった。

この記事が気に入ったらサポートをしてみませんか?