Structure-aware protein sequence alignment using contrastive learning
https://www.biorxiv.org/content/10.1101/2024.03.09.583681v1
下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。
本研究は、バイオインフォマティクスと分子生物学におけるタンパク質のアラインメントプロセスの重要性に関する背景を説明しています。タンパク質のアラインメントは、タンパク質配列間の類似性を比較し同定するために使用されます。このプロセスにより、タンパク質の機能、構造、進化的関係が明らかになります。また、未知のタンパク質の機能予測や遺伝性疾患の理解、薬剤開発のガイドなどにも役立ちます。さらに、異なる種におけるタンパク質ファミリーの系統と適応の研究にも貢献しています。
本研究の関連研究として、構造ベースのタンパク質アラインメント手法としてFAST、TM-align、Daliなどがあります。これらの手法は理想的な結果を達成することができますが、既知のタンパク質の中で構造が利用可能なものはごくわずかであり、AlphaFold2などの予測構造のリリースと既知のタンパク質の間にはまだ大きなギャップが存在します。また、AlphaFold2は短いタンパク質配列や同源性のないタンパク質に対しては満足のいく予測結果を得ることができません。
最近では、ディープラーニングとタンパク質言語モデル(PLM)に基づくタンパク質配列アラインメント手法が提案されています。教師なしの手法としては、PLM-BLASTとPLMAlignがあります。これらは事前学習された埋め込みの余弦類似度を置換行列として使用し、Smith-Watermanアルゴリズム(SW)やNeedleman-Wunschアルゴリズム(NW)を使用してアラインメント結果を得ます。教師ありの手法としては、DeepBLASTとDEDALがあります。DeepBLASTはPLMベースのニューラルネットワークをトレーニングし、タスク適応型PLMによって構造感知の埋め込みを取得します。DEDALも差分ダイナミックプログラムを使用していますが、パフォーマンスは教師なしの手法よりも悪いです。
本研究の目的は、対照的な学習を使用した構造感知のタンパク質配列アラインメント手法であるCLAlignを提案することです。CLAlignは教師ありの手法であり、対応する2つの残基の埋め込みを対照的な学習によって近づけることを目指しています。トレーニングプロセスの後、CLAlignはタスク適応型のPLMによって構造感知の埋め込みを得ます。そして、これらの構造感知の埋め込みを使用して最終的なアラインメント結果を得ます。
本研究では、DeepBLASTと同じトレーニングセットを使用し、比較のために2つの一般的なベンチマークデータセットであるMalidupとMalisamを使用してアラインメントのパフォーマンスをチェックしました。
実験結果によると、CLAlignはMalidupとMalisamの2つのベンチマークデータセットで、他の最先端の手法よりも少なくとも12.5%と24.5%高いパフォーマンスを示しました。これにより、CLAlignが比較された他のタンパク質配列アラインメント手法の中で最も優れたパフォーマンスを達成したことが明らかになりました。
本研究では、CLAlignのパフォーマンスを他の手法と比較することによって有効性を検証しました。比較対象の手法には、従来の手法であるNWとSW、PLMベースの手法であるpLM-BLASTとPLMAlign、および構造ベースの手法であるMammoth、FAST、TM-align、Daliが含まれます。実験結果から、CLAlignがすべての比較対象のタンパク質配列アラインメント手法の中で最も優れたパフォーマンスを達成したことが明らかになりました。