見出し画像

アミノ酸配列情報のみからの深層学習によるヒト-ウイルスタンパク質間相互作用の予測に関する研究

2023年度研究会推薦博士論文速報
[バイオ情報学研究会]

築山 翔
(日本学術振興会特別研究員PD)

■キーワード
深層学習/ウイルス感染症/タンパク質間相互作用

【背景】タンパク質間相互作用はウイルス感染症において重要な役割を果たす
【問題】実験的なタンパク質間相互作用の同定には多くのコストと労力が必要である
【貢献】アミノ酸配列のみからタンパク質間相互作用を高い精度で予測可能にした

 ウイルス感染は世界的な健康上の重大な問題である.SARS-CoV-2はその出現から急速に拡大し,世界的なパンデミックを引き起こした.タンパク質間相互作用(PPI)は,ウイルスのライフサイクルのさまざまな段階で重要な役割を果たし,ウイルスの宿主細胞内での感染を促進する.そのため,ヒト-ウイルスタンパク質間相互作用を同定することは,ウイルスの感染メカニズムの理解と新薬の開発につながる.このようなヒトとウイルスタンパク質間の相互作用の同定には,質量分析法や酵母ツーハイブリッド法などの実験的手法が広く用いられているが,これらの実験的手法は多くの時間とコストがかかる.また,生体内のタンパク質は10万種以上,薬の候補は1万種以上あるため,実験的手法で相互作用するような組み合わせを見つけるには,かなりの手間がかかる.そこで,このような実験方法を補完するために,さまざまな計算論的手法が開発されている.特に,Molecular dynamics (MD)に基づくシミュレーションでは,タンパク質の構造情報に基づき,高い精度で予測を行うことができる.その一方で,タンパク質の構造情報を実験的に同定することは容易ではなく,構造が既知のタンパク質に適用範囲が限られる.

 そこで,近年,アミノ酸配列のみを用いたヒトとウイルスタンパク質間の相互作用の予測が注目を集めている.このようなアミノ酸配列から予測に取り組んだ先行研究としては,Random forest (RF)やSupport vector machine (SVM)などの従来の機械学習を用いた手法,Doc2vecなどの自然言語処理におけるアプローチを応用した手法,アミノ酸配列に加えて疾患の表現型やタンパク質の機能の情報を用いた手法,およびConvolutional neural network (CNN)などの深層学習に基づく手法などさまざま開発されている.しかし,これらの手法において,未知のウイルスに対する予測精度には改善の余地がある.

 本研究ではアミノ酸配列のみからの高い精度でのタンパク質間相互作用の予測を実現するために,LSTM-PHVとCross-Attention PHVと呼ばれる2つの深層学習ベースの手法を提案した.これらの手法では,word2vecといる方法によりヒトとウイルスのアミノ酸配列情報を特徴表現に変換した後,それらの特徴表現を深層学習モデルに入力することで2つのタンパク質が相互作用するかどうかを予測する.Word2vecは,自然言語処理における単語の埋め込み手法の1つであり,コンテキスト内の単語を予測するタスクを通して単語の分散表現を生成する.このような方法を用いることで,多様なアミノ酸の並びに関する特徴を捉え,モチーフ等の情報を特徴行列に埋め込むことが可能になると考えた.

 本論文では複数のベンチマークデータセットを用いて,先行研究において提案された手法との性能の比較を調査した.その結果,複数の指標において,LSTM-PHVとCross-Attention PHVの両手法ともに先行研究の手法より高い性能を示した.また,未知のウイルスに対する予測を想定したような評価においても,先行研究における手法を超える精度を示しており,新規ウイルス出現時における創薬研究への応用も期待される.

 さらに,ウイルス感染メカニズムの解明や創薬等の研究領域を促進するためにWebサーバーとコマンドラインツールの開発を行った.これらのシステムではヒトおよびウイルスタンパク質のアミノ酸配列のみから,網羅的な相互作用の予測が可能である.

■Webサイト/動画/アプリなどのURL
http://kurata35.bio.kyutech.ac.jp/LSTM-PHV/
http://kurata35.bio.kyutech.ac.jp/Cross-attention_PHV/
https://github.com/kuratahiroyuki/Cross-Attention_PHV

(2024年5月29日受付)
(2024年8月15日note公開)

ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー
 取得年月:2024年3月
 学位種別:博士(情報工学)
 大学:九州工業大学
 正会員

ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー

推薦文[メディア知能情報領域]バイオ情報学研究会
SARS-CoV-2を含むウイルスとヒトのタンパク質間相互作用を予測する情報技術は,ウイルス感染症の治療標的を発見する基礎となる.世界で初めてアミノ酸配列を自然言語処理を用いてベクトル化し,ヒト-ウイルスタンパク質間相互作用を予測する高い汎化性能をもつ深層学習モデルを開発することに成功した.

研究生活  コロナウイルスによるパンデミックに対して自身の知識や技術が活かせるのではないかと考えたことが本研究を始めたきっかけです.

私は博士課程の研究において,海外の研究機関に共同研究を申し込みました.また,留学を通して研究活動を行うことで,世界の研究者と関係を築くことができました.このような研究活動は,指導教官の倉田先生の「世界トップレベルの研究者と研究を行う経験をした方がいいよ」という一言から,共同研究先に研究計画と履歴書を送ることで始まりました.初めは,不安な部分も多々ありましたが,主体的に挑戦し,世界の研究者と肩を並べて研究することができました.このような経験は現在では研究を進める上での大きな自信となっています.

これから博士課程に進む人はさまざまなことに積極的に挑戦することをお勧めします.そのような体験や経験から知識や技術を培うだけでなく,新たな視点や価値観の構築につながると思います.