NMPFamsDB: a database of novel protein families from microbial metagenomes and metatranscriptomes
本研究の中心となる学術的な問いは、具体的には「未知のタンパク質家族とその機能は何か」、「それらはどのような生物体に、どのような環境で存在しているのか」、そして「それらの情報はいかにして取得・分析するか」です。これらは、メタジェノミクスと呼ばれる分野で重要な問いかけであり、その分野は環境中の全ゲノム情報を研究するものです。
本研究の目的は、環境中の微生物から得られた情報を元に、未知のタンパク質家族のデータベースを作り上げ、その分布、起源、機能、分類を明らかにし、これらの情報を利用して微生物のプロテオーム全体の解析に役立てることです。学術的な独自性と創造性は、未知のタンパク質家族の解析を行うための新たなデータベースを開発し、“機能的ダークマター”と呼ばれる、まだ調査されていないメタゲノム配列データの探索を可能にしたことにあります。
微生物群集の遺伝情報を詳細に解析するメタゲノミクスは、近年の高速な塩基配列決定技術の進歩により、さまざまな生物学分野に応用されています。しかし、これまでの方法では、既知のゲノムやタンパク質ドメインにヒットしない遺伝情報は無視され、解析対象外とされてきました。そのため、実は未開拓の広大な遺伝情報が存在しているという課題に直面していました。本研究は、この課題に対応するための新たな手法として位置付けられるものであり、全く新しいタンパク質家族を特定し、その構造や機能を予測することを可能にします。
本研究では、既存の参照ゲノムやPfamドメインにヒットしないタンパク質を中心に、メタゲノムとメタトランスクリプトームから派生した10万以上の新規タンパク質家族を特定しました。それぞれのタンパク質家族について、配列のアラインメント、隠れマルコフモデル、分類情報、生態系情報等を含む多くのメタデータをまとめ、更にはAlphaFold2を用いた3D構造予測も行いました。
本研究の有効性は、既存のゲノムやタンパク質ドメインにマッチしなかった配列をタンパク質家族としてクラスタリングし、それぞれのタンパク質家族に対して多重配列アライメントや隠れマルコフモデルを作成することで検証しました。また高品質なタンパク質構造とトポロジーの予測、及び3D構造モデルも提供しています。