イルミナとナノポアを統合したマイクロバイオームデータのメタゲノム解析におけるストラテジーとツール
イルミナとナノポアを統合したマイクロバイオームデータのメタゲノム解析におけるストラテジーとツール
Yu Xia, Xiang Li, Ziqi Wu, Cailong Nie, Zhanwen Cheng, Yuhong Sun, Lei Liu, Tong Zhang
初出:2023年1月9日
https://doi.org/10.1002/imt2.72
について
セクション
シェアする
概要
メタゲノム戦略は、天然および人工の微生物システムにおける新規バイオリソース(例えば、産業用酵素や生理活性分子)やバイオハザード(例えば、病原体や抗生物質耐性遺伝子)の生態学的探索の基盤として、様々な分野で活用されています。近年のシーケンサー技術の進歩により、マイクロバイオーム研究の分野は急速に発展し、メタゲノム解析のワークフローにイルミナショートリード(SR)とナノポアロングリード(LR)の両方を適用した研究が増えています。しかし、環境マイクロバイオームデータセットの高い複雑性と、これらのシーケンス技術のユニークな特徴に起因するバイオインフォマティクス上の課題を考慮すると、SRとLRの統合は想定されるほど簡単なことではありません。既存のツールの更新が早く、新しいアルゴリズムが多様化していることが、この分野へのアクセスをさらに困難にしている。そこで、ここでは、環境マイクロバイオームの研究にイルミナとナノポアを統合したメタゲノム解析法を適用するためのDNA抽出からデータ処理戦略までの完全なワークフローを系統的にまとめた。本総説は、メタゲノム解析におけるSRとLRの統合に興味を持つ研究者、あるいは悩んでいる研究者に、タイムリーな知識の枠組みを提供することを目的としている。また、自然界、人工、ヒトのマイクロバイオームにおける群集機能および群集形成に関する生態学的理解の向上を促進し、様々な分野の研究者に有益な情報を提供することを目的としている。
図表による概要
メタゲノム解析におけるイルミナおよびナノポア解析の戦略とツール
説明文はありません
ハイライト
ナノポアロングリードとイルミナショートリードを統合するためのタイムリーな知識フレームワークを提供します。
図1に、イルミナとナノポアの統合のための一般的な戦略のワークフローを示す。
アルゴリズムの基礎とツールの応用特性は、表3にまとめてあります。
はじめに
マイクロバイオームの観点から微生物を研究することは、ヒト[1-3]、植物[4, 5]、自然環境[6-9]において微生物が促進する機能やバイオプロセスの影響や意味を理解する上で、明確なメリットがあります。この10年間で、メタゲノム全ゲノム(以下、メタゲノム)シーケンスが確立され[10-14]、様々な自然および人工マイクロバイオームにおける微生物の多様性と機能をしっかりと探索することが可能になりました。しかし、群集組成の偏在やゲノムの微細多様性により、イルミナショートリード(SR)を用いた複雑なマイクロバイオームのde novoメタゲノム解析は非常に断片的なものとなっていました[16]。Oxford Nanopore Technology (ONT)は、微生物ゲノムの繰り返し領域のほとんどをカバーする長さのロングリード(LR)を生成することができ、アセンブリの連続性を大幅に向上させることができました[17, 18](※1) 。また、LRはゲノム上の一塩基多型(SNP)を直接検出できるため、複雑な集団における株の異質性の検出を強化することができます[19]。しかし、ナノポアを用いたゲノムは、インデルのエラーが多く、リファレンスゲノムとしての応用には限界がある。両者の長所を生かし、特定の生物学的問題に取り組むために、nanopore LRとillumina SRを組み合わせたバイオインフォマティクス解析(統合メタゲノム解析)を行うマイクロバイオーム研究が増えてきている。例えば、ナノポアLRを組み込むことで、ヒト腸内細菌叢のメタゲノム集合体の連続性が劇的に改善され、大規模で費消的な構造変異(SV)タイプの検出が容易になった。この統合されたワークフローに基づいて、Chenらは、SVsプロファイルが個人間で非常に区別され、個人内で安定していることを発見し、これは、腸内細菌種内の機能に関連する株レベルの差異を提示するための腸内細菌叢フィンガープリントとして使用できる可能性があることを明らかにした[20]。このようなハイブリッドアプローチを用いた分離株のゲノムアセンブリは、エラーが起こりやすいナノポアのLRや高精度なイルミナのSRと比較して優れたパフォーマンスを示しているが[21]、実際のメタゲノムデータセットにこれら2種類のリードを統合することは、各技術の既存の制限やそれに伴うバイオインフォマティックの課題を考えるとそれほど簡単なことではない。一般に、特定の研究目的に対して最適な統合戦略(図1)を決定することは困難である(各戦略の長所と短所については後のセクションで詳しく説明する)。
詳細は画像に続くキャプションに記載
図1
図ビューアーで開く
パワーポイント
キャプション
そこで、本レビューでは、このような統合型メタゲノム解析の実施に関する最近のマイルストーンとなるいくつかの研究の解析手順を比較・整理し、読者がこの分野の最新動向をキャッチアップするための実践的な知識の枠組みを構築した。また、文献から得られた情報や筆者らの統合メタゲノム解析の経験に基づいて、解析ワークフローに関するいくつかの大胆な提言も行った。最後に読者に注意していただきたいのは、ここで取り上げた統合メタゲノム解析手法はまだ開発の初期段階にあり、このレビューが執筆されている時点でも急速に変化していることである。知識の枠組みを支える基本的な考え方は信頼できるが、新しいアセンブルアルゴリズムの導入やナノポアLRの将来の精度向上など、バイオインフォマティクスやバイオテクノロジーの発展がもたらす変化に左右される可能性がまだある。
マイクロバイオーム研究におけるイルミナおよびナノポアメタゲノミクスの利点と限界
核酸ターゲットであるRNAやDNAを、使用するシーケンスシステムに適合する形に調製することは、イルミナやナノポアのライブラリー構築の基本である。イルミナライブラリー調製に必要な出発DNA材料の量が少ないことと、低コストで容易に利用できる商業化されたイルミナSRシーケンスサービスとの組み合わせにより、メタゲノム微生物相研究への幅広い応用が大いに促進されています。ナノポアシーケンスのコストは、現時点ではまだイルミナシーケンスよりも明らかに高いが、そのリアルタイムシーケンス原理によって可能となる迅速なターンアラウンドタイムと制限の少ないシーケンスシナリオ、および低い機器要件は、追跡アウトブレイク監視 [23-25] 、遠隔地でのオンサイトのマイクロバイオームプロファイリング [24, 26, 27] など、特定の研究目的にとって代替不可能なものとなっている。さらに、新しいナノポアシーケンスプロトコルは、マイクロバイオーム研究の新たな可能性を切り開いた。例えば、ReadUntil法を用いて、研究者は宿主ゲノム配列を選択的に除去することができ、その結果、コミュニティ内のターゲットを正確に制御したシーケンシングが可能となった[28-31]。しかし、ReadUntilを天然マイクロバイオームの研究に適用するための現在の課題は、選択的シーケンシングの際の意思決定のための既知の参照ゲノムが一般的に不足していることである。最近、MetaRUpore (https://github.com/sustc-xylab/metaRUpore) は、このリファレンス不足のボトルネックを回避するためにヒューリスティックアプローチを採用し、嫌気性消化器やヒト腸のマイクロバイオームから完成に近いメタゲノム集合ゲノム (MAG) を検索する際に優れた性能を実証しています。さらに、Direct RNAプロトコルは、RNAレベルのコミュニティの多様性を直接捕らえることを可能にし[32]、RNAウイルスをそのままの形でゲノム配列決定することも可能にした[33, 34]。さらに、ナノポアの信号からメチル化コールを行うことで、ヒトのエピゲノム全体の評価が可能となった[35]。マイクロバイオーム研究におけるイルミナとナノポアを用いたメタゲノム解析の詳細な長所と短所を表1にまとめました。
表1. マイクロバイオーム研究におけるイルミナおよびナノポアベースメタゲノミクスの利点と限界
ライブラリー調製とシーケンシング リードベースのコミュニティと機能解析 アセンブリとビニング
イルミナベースメタゲノミクス
利点
比較的安価な商用シーケンサーを利用できる
DNAの品質と量の両方において、ライブラリー構築のためのインプットDNAへの要求が低い。
コミュニティカバレッジの高い大規模なSRで、存在量の極めて少ない集団のシグナルを容易に捕捉できる
コミュニティ、機能性、メタゲノム解析のための様々な成熟したバイオインフォマティクスフレームワークがある
高精度なSRにより、アセンブルされたMAGの精度を保証することができる。
制限事項
装置コストが高いため、中央研究所やシーケンシング会社でシーケンシングデータを取得するまでの時間が比較的長くなる。
ブリッジPCRによる高GC集団に対するバイアスを避けることができない。
一般的に、SRを特定の系統(例えば種レベル)に割り当てることが難しい。
外来要素のアセンブルは困難であり、結果としてMAGが高度に断片化される。例えば、高品質なMAGでもコンティグが50以上ある
ナノポアベースメタゲノミクス
利点
装置価格が比較的安いため、どのラボでも48時間以内にシーケンス結果が得られる短納期を実現できる。
ReadUntilシーケンスのように、目的に応じてシーケンシングプロトコルをカスタマイズできる。
システマティックなバイアスはないが、ベースコールの制約がある。
リード長が長いため、LRを特定の系統(例えば、種レベル)に容易に割り当てることができるが、信頼性の高い機能アノテーションを確保するためには補正をかける必要がある。
メタゲノム解析から連続性の高いMAGを得ることができる。
制限事項
現時点では、商業的なシーケンシングサービスによる全体的なシーケンシング価格が高い。
DNAの純度や量に厳しい制約がある(>400 ng DNA)。
主流のケミストリーで生成される生のLRのエラー率が高い(R9.4ケミストリーで5%~10%、R10.4ケミストリーで3%~5%)。
ProkkaやMetaWRAPのような通常のバイオインフォマティックパイプラインは、ナノポアLRの生解析には適用できない。
シーケンスのスループットが制限されるため、低カバレッジの集団をアセンブルすることが困難であり、これは高いシーケンスコストと関連することが多い
アセンブルしたMAGにインデルエラーやキメラエラーが残存し、参照ゲノムとしての適用に限界がある。
略語 GC, ガスクロマトグラフィー、LR, ロングリード、MAG, メタゲノム合成ゲノム、PCR, ポリメラーゼ連鎖反応、SR, ショートリード。
ナノポアライブラリー構築を成功させるためには、DNAの量と質が厳しく問われる。そこで、ナノポアを用いた環境微生物群のメタゲノム解析に適用した最近の研究から、DNA抽出プロトコルを表2にまとめている。市販のキットの中では、DNeasy PowerSoil Kit(QIAGEN)が最も頻繁にメタゲノム調査に使用されていた。配列決定を確実に行うために、抽出時に生じた短いDNA断片をクリーンアップするために、AMPure XPビーズが頻繁に使用された。最後に、一次元ライゲーション(SQK-LSK108およびSQK-LSK109)は、バイオインフォマティクス処理に必要な塩基あたりの精度と十分なコミュニティカバレッジを確保するために必要なフローセルあたりのデータ収量の間の実用的なトレードオフのため、最も人気のあるシーケンスプロトコルとして浮上した。Maghiniらは、酵素的細菌細胞溶解に基づく高分子量DNA抽出プロトコルも報告しており、これは1g未満のヒト便サンプルから数十キロベースの断片ピーク長を持つマイクログラム量の出力DNAを得ることができた[19, 46]。
表2. ナノポアベースメタゲノムシーケンスを環境マイクロバイオームに適用した最近の研究のDNA抽出プロトコール
サンプルの種類 DNA抽出方法 DNA精製方法 DNAの品質と量 ONTライブラリー調製 フローセルあたりの最大データ収量(Gbp) ナノポアシーケンスプラットフォーム 参考文献
乳児の糞 FastDNA Spin Kit for Soil (MP Biomedicals) 1× Hi Prep ビーズクリーンアップ 46 μl 容量中 1 mg 未断片化 DNA SQK-LSK108 2.3 R9.5 (MIN107) MinION [36]。
SQK-LSK108 16.5 R9.4.1 (MIN106D) GridION
SQK-LSK109 15.2 R9.4.1 (MIN106D) GridION
MagAttract HMW DNA Kit (Qiagen) Qiagen DNeasy PowerSoil (Qiagen) N.A. SQK-LSK108 1.6 R9.4.1 (MIN106) MinION [37] で抽出した牛糞DNA。
便サンプル Qiagen Stool Mini kit SPRI bead protocol 1 mg size-selected DNA SQK-LSK108 27.4 R9.4.1 MinION [22] 試料
底質 FastDNA SPIN Kit(MP Biomedicals) N.A. N.A. SQK-LSK109 N.A. R9(MIN106D) MinION社 [38]製
WWTPからの活性汚泥 DNeasy PowerSoil Kit (Qiagen) SPRI ビーズプロトコル N.A. SQK-LSK109 59.2 R9 (PRO002) PromethION [39] N.A. SQK-LSK109 R9 (PRO002) PromethION [39
WWTPからの活性汚泥 DNeasy PowerSoil Kit (Qiagen) AMPure XP ビーズ 1.5-2.0 mgのDNA SQK-LSK108 94.5 R9 PromethION [18]
Zymo CS細菌分離株 DNeasy PowerSoil Kit (Qiagen) AMPure XP ビーズ 1.5-2.0 mg of DNA SQK-LSK108 16.03 MIN106 GridION 【40
148.03 PRO002 PromethION
WWTPs流入サンプル DNeasy PowerSoil Kit (Qiagen)
ゲル精製
AMPure XP ビーズ
1.5~2.0 mg の DNA SQK-LSK108 4.7 R9.4 MIN106 MinION [41] (英語
WWTPs 排水サンプル DNeasy PowerSoil Kit (Qiagen)
ゲル精製
AMPure XP ビーズ
1.5-2.0 mg の DNA SQK-LSK108 4.2 R9.4 MIN106 MinION
WWTPs活性汚泥サンプル DNeasy PowerSoil Kit (Qiagen)
ゲル精製
AMPure XP ビーズ
1.5-2.0 mg の DNA SQK-LSK108 5.4 R9.4 MIN106 MinION
成体マウス腸内細菌 QIAamp DNA Microbiome Kit (Qiagen) N.A.
300 fmolの入力DNA
25 ul
SQK-LSK108 5.3 R9 MIN106 MinION [42]の場合
地下水 フェノール-クロロホルム法 フラグメンテーションを最小化するために機械的溶解を行わない方法
Zymo DNA Clean and Concentratorキット
AMPureビーズ(Agencourt AMPure XP, Beckman Coulter)
濃度98 ng/μl、総量~1.4 μg のDNA SQK-LSK109 11.58 R9.4.1 MIN106 MinION [43] (参考文献
嫌気性汚泥 WWTP DNeasy PowerSoil Kit (Qiagen) SRE XS (Circulomics) N.A. SQK-LSK109 35 R9.4.1 MIN106 MinION [15] SQK-LSK112 35 R9.4.1 MIN106 MinION [15
SQK-LSK112 14 R10.4 MinION
南極大陸北部の土壌サンプル
DNeasy PowerSoil DNA
分離キット (Qiagen)
N.A. 土壌 DNA 1 µg SQK-LSK109 5.7 R9 MIN106 MinION [44]の場合
便サンプル
QIAamp PowerFecal DNA Kit (Qiagen)
TissueLyser LT (キアゲン)
N.A. N.A. 1D Ligation プロトコル N.A. R9 MIN106 MinION [45]を参照。
略号 1D, one-dimensional; HMW, high-molecular-weight; N.A., not available; ONT, Oxford Nanopore Technology; SPRI, solid phase reversible immobilization; WWTP, wastewater treatment plant.略称:1D、1次元、HMW、高分子、N.A.,利用不可。
イルミナとナノポアを統合したマイクロバイオームデータのメタゲノム解析のための分析戦略
1つは、ゲノム中心アプローチと呼ばれるもので、群集内の異なる微生物のゲノムを互いに分離し、カバレッジの違いやテトラヌクレオチド頻度などのゲノムの特徴に基づいて、いわゆるMAGに分離するものである。イルミナやナノポアを用いたゲノム中心的なメタゲノム解析の目標は、微生物生態学の究極の疑問である「誰が何をやっているか」をゲノムレベルで解明するために、群集の主要な集団の高品質なMAG(推定完全度90%以上、汚染度5%未満、16S rRNAオペロン無傷と定義)[47]を取得することである。メタゲノム解析のもう一つの方法は、アセンブリー不要の "遺伝子中心 "である。このアプローチでは、"ゲノムセントリック "アプローチのように機能性と特定の系統型との関連性を極限まで追求するのではなく、群集の機能的多様性を可能な限り引き出すことが目標となる。
アセンブリに基づくゲノム中心戦略
メタゲノムde novoアセンブリは、「ゲノム中心」アプローチの中核となるステップである。このアセンブリは、その後のメタゲノム解析のビニングステップのパフォーマンスを左右するだけでなく、解析ワークフロー全体に必要な計算機資源(RAMとコアタイム)を大きく左右します。これまで、この重要なアセンブリステップを実行するために、2つのアセンブリ戦略、すなわちハイブリッドアセンブリとナノポアアセンブリが提案されてきた(図1の「ゲノム中心」側で緑と青の部分でそれぞれ示されている)。ハイブリッドアセンブリーでは、その名の通り、イルミナSRをナノポアLRと一緒にアセンブリーする。MetaSPAdes [48]とUnicycler [49]は、このようなハイブリッドアセンブリアルゴリズムを実装するための最も強力なツールであり、ナノポアのLRは、イルミナSRのコンセンサスアセンブリグラフの繰り返しを解決するために使用されることになる。注目すべきは、Liuらが、コミュニティ内の異なる有病率のMAGを検索するための反復ハイブリッドアセンブリ(IHA)の有効性を報告したことである。IHA法では、1ラウンド目で得られた適格なMAGに含まれるillumina SRとnanopore LRは、2ラウンド目のハイブリッドアセンブリーとビニングから除外され、配列データの複雑さを軽減することにより、コミュニティの少数集団のMAGの回収を改善できると考えられる [18].この方法で再構築された Candidatus Brocadia の最初の完全ゲノムでは、ヒドラジン合成酵素 (hzs) 遺伝子が2つ同じコピーであり、この重要なアナモックスのファイロマーカーのゲノム冗長性を実証している。このハイブリッドアセンブリー法の大きな欠点は、計算量が多いことである。ナノポアLRは配列が複雑でエラーが起こりやすいため、イルミナSRのde novoアセンブリワークフローにナノポアLRを統合すると、RAMが急速に消費され、解析に要するコアタイムが劇的に増加することが予想されます。例えば、永久凍土の微生物群のデータセットで、1Gbpのnanopore LRと10Gbpのillumina SRを統合すると、512Gb RAMのサーバーではMetaSPAdes hybrid-assemblyで "core dump "エラーが発生しますが、allumina SRの30Gbpのアセンブリはスムースに終了します[50]。したがって、複雑な微生物群集を含むほとんどの自然環境サンプルでは、ランダムサブサンプリングまたは系統分割ベースのサブサンプリング(51)のいずれかが、通常の計算資源を持つ研究室でこのようなハイブリッドアセンブリ戦略を達成するために避けられないことが予想される。
そこで、ハイブリッドアセンブリー法の計算量の制限を回避するために、ナノポアアセンブリー指向の方法を確立した。ナノポアアセンブリは、ナノポアLRsのデータセットをde novoでアセンブリする方法であり、ハイブリッドアセンブリとは異なる。しかし、Canu は他のツールに比べ、計算量が非常に多い。その後、いくつかの研究者は、Canuのアセンブリを進める前に、配列精度を向上させ、データサイズを縮小するために、ナノポアデータセットの自己補正を少なくとも1回行うことを提案している[54-56]。さらに、metaFlyeのリピートグラフ簡略化ステップは、大きな共有保存領域を持つ株レベルのゲノムを生成することにより、コミュニティの微細多様性を解決する上で明確な利点を示した[16]。次に、MAGは、組成またはカバレッジベースのビニング解析を用いて、ナノポアアセンブルされたコンティグから導出することができる。微生物ゲノムの完全なゲノムプロファイルを得るためには、異なるアセンブルツールから得られる可能性のある非常に長いコンティグ(>1 Mbp)を、後続のビニングステップの初期ビンとして直接用いることが現実的な提案であろう[13]。その後、ゲノムの信頼性を向上させるために、3ラウンドの修正ステップを実施する必要があります。通常、第一ラウンドはLRの自己補正で、MedakaやRaconなどのツールでコンセンサスを得るためにアセンブルされたコンティグにLRをアライメントし直す[57]。第2ラウンドの補正は、イルミナSRをワークフローに統合するステップです。SRは、nanoporeで得られたコンティグにマッピングされ、インデルのエラーを修正します。Pilon [58]は、illumina SRのアライメントに基づき、indelエラーを特定し、修正する最も便利なツールです。また、minimap2[59]は、大規模なillumina SRsデータセットのマッピングに優れた速度を示したが、burrows-wheeler alignment-maximal exact matches[60]によるマッピングは、Pilon[50]によるインデルの特定により高い感度を示している。illuminaのデータセットが大きいことを考えると、このSRs-correctionステップは、通常、全体の補正解析の中で最も時間のかかるステップとなります。さらに、Looseらは、Raconのコンセンサスアルゴリズムが、Pilonによって修正されたコンティグ上のインデルのエラーをさらに減らすことができると指摘しており、illumina SRの統合を改善する余地があることを示唆している[61]。例えば、NCBI Refseqタンパク質データベースとDiamond [62] またはLAST [63]のフレームシフトを考慮したDNA-タンパク質アライメントを使用します。次に、アラインメントで報告されたフレームシフトの位置に基づいて、フレームを維持するようにコンティグにNsが挿入されます。MEGAN6-LR [64]のコミュニティ版では、Diamondで生成されたbamファイルに基づいてこのような補正を行うことができ、FUNpore [50]ではLASTアライメントに基づく同様の補正が可能である。補正後のMAGは、GTDB-Tk [65], CheckM [66], Prokka [67]などの従来のゲノム品質・アノテーションツールで評価・注釈付けすることができる。ナノポアアセンブリのワークフローにおいて複数のアセンブラが適用されている場合、複製されたMAGはアノテーションおよび定量化の前にdRep(68)により削除または統合される必要があります。
もう一つ、メタゲノム集合ゲノム規格の最小情報[69]にあるように、完成した微生物ゲノムは「...レプリコンごとに、ギャップや曖昧さのない、検証済みの連続した単一配列」かつ「Q50と同等以上のコンセンサスエラー率を持つゲノム」と定義されていることについても言及します。純粋培養に適用される複数の配列決定技術[47]をもってしても、この基準を満たすことは困難である。しかしながら、2番目に高い品質レベルである高品質ゲノム(推定完全度90%以上、汚染度5%未満、16S rRNAオペロン無傷と定義)は、イルミナSRsベースのアセンブルによる高断片化コンティグやナノポアLRsベースのアセンブルによる多数のフレームシフトエラーの存在にもかかわらず達成可能で、いずれもその後の解析に大きな影響を与えることがある [70].特に、イルミナベースのメタゲノム解析で高品質のMAGを得るための最大の障害は、16S rRNAオペロンを含む連続性の高いコンティグを得ることができないことであり、これはナノポアLRをゲノム中心のワークフローに統合することで効果的に解決することができるだろう。Q50完成ゲノムと高品質ゲノムのギャップを埋めるために、Sereikaら, 2022は、イルミナSRs研磨によるコンセンサス配列の大幅な改善が期待できない高品質MAGとして、「near-finished」ゲノムという概念を提唱した[71]。そして、彼らのZymo mockコミュニティのディープシーケンスでは、R10.4ケミストリーを用いたナノポアシーケンスのみで、約40×のカバレッジでnear-finished microbial reference genomesを得ることができることが示されている[71]。しかし、メタゲノム・データセット中のほとんどの種、特に希少種のカバレッジは、通常、このようなほぼ完成されたコンセンサス精度に到達するために必要な40×カバレッジより低いものである。したがって、ナノポアLRベースのアセンブリから得られたMAGの全体的な品質を確保するためには、イルミナSRを用いた研磨ステップが現在重要であり、このレビューで述べた統合メタゲノム手法の重要性が実用的な観点から浮き彫りになっている。今後、adaptive nanopore sequencingや他のマイクロ流体ベースの選択的濃縮技術の開発により、十分なカバレッジに達し、得られたMAGのコンセンサス精度をさらに向上させることができるかもしれない。このような暗黙の誤差があったとしても、イルミナとナノポアを統合したメタゲノム解析から得られた非断片化かつ精度の高いMAGは、複雑な環境微生物群の未培養の大多数の機能能力について既に判明していることを補完する貴重な役割を果たすことができるだろう。さらに、高精度なPacBio HiFiリードに基づくアライメント(エラー率1%以下)では、代替SNPハプロタイプを相補し、系統解決されたMAGを得る能力を示していた。一方、ナノポアLRは、ヒト腸内細菌群における大規模かつ拡張されたSVタイプ(特に大規模な挿入と逆位を含む)の確実な検出を可能にしたが[20]、メタゲノム解析時にゲノムが単一のプレゼンテーションに圧縮された関連集団内の遺伝子変異を解決するナノポアLRの能力を組織的に実証するには、まだアルゴリズムの最適化が必要である。
アセンブル不要の「遺伝子中心」戦略
メタゲノム解析のもう一つの選択肢は、アセンブルされたMAGの代わりに、補正されたナノポアLRに基づいてコミュニティの機能的多様性を直接特定し定量化する、アセンブル不要の「遺伝子中心」アプローチである。メタゲノム解析では、完全なゲノムに類似した長い環状コンティグが得られるという利点がある一方で、対応する微生物群のカバレッジが低いため、メタゲノム解析データセットのナノポアLRの大部分はアセンブリできず、アセンブリベースの「ゲノム中心」解析の対象から外されてしまうという欠点がある。t分布ストキャスティックネイバー埋め込みプロットに示されるように、ハイブリッドアセンブリにもイルミナアロンコンティグにもカバーされないLRの凝縮したクラスターが、部分硝化アナモックス反応器の微生物相にいくつか観察された[12](図2A)。永久凍土の群集では、群集の多様性が増すにつれて、非集合型ナノポアLRの割合がさらに高くなると考えられる(図2B)。したがって、このようなパターンは、群集構造が高度に一様でないほとんどの自然界において、例外ではなく、むしろ標準的なパターンである。このような集合のボトルネックは、微生物群の挙動や代謝能力を完全に理解する上で、メタゲノム解析の威力を発揮する上で、最も厳しいとは言えないまでも、大きな課題である。ナノポアのLRは、アセンブルしたコンティグと同等のリード長であることから、LRデータセット自体が、アセンブル戦略ではカバーしきれないゲノム情報の貴重な宝庫であると言える。ナノポアLRの強固な分類学的解像度は、抗生物質耐性遺伝子(ARG)などの機能性遺伝子とその系統的宿主や移動性要素との関連付けを容易にしている[41, 72]。ナノポアを用いたARGの同定に基づいて、Cheらは、WWTPのすべてのコンパートメントで検出されたARGのほとんどが、染色体を持つARGではなく、プラスミドによって運ばれていることを確認することができました[41]。そして、補正後LRによって同定された宿主集団の系統スペクトルは、永久凍土のコミュニティにおいてアセンブリーベースのアプローチよりも40%拡大することができ、解凍中の永久凍土からのCH4排出を緩和するバイオフィルターとして機能し得るメチロモナスによる活発な好気性メタン酸化の同定を容易にした[50]。その結果、統合メタゲノムデータマイニングにおけるアセンブルフリー技術は、コミュニティの代謝能力のより広範な系統的つながりを明らかにできることが多いため、特に注目に値する。
詳細は画像に続くキャプションをご覧ください。
図2
図ビューアーで開く
パワーポイント
キャプション
イルミナとナノポアを統合したメタゲノム解析のバイオインフォマティクスツールとパイプライン
前述した解析戦略を実行するためには、バイオインフォマティクスツールを体系的に理解することが重要である。解析前のアダプタートリミングとイルミナおよびナノポアの生シーケンスの品質管理(QC)は、その後のアセンブリとアノテーションの信頼性を確保するために重要である。しかし、例えば、イルミナ用のFASTP [73] とTrimomatic [74] 、ナノポアのリード用のporechop [75] などのQCステップの成熟手順を考えると、以降のセッションで紹介するツールの以下の特性は、デフォルトでQC後のSRとLRを使ってその性能に基づくものである。
ナノポアシグナルのベースコール
ナノポアシーケンサーからの生の電気信号は、まずベースキャリングによってDNA配列に変換される必要がある。ベースコールは計算量が多く、ナノポアのLRの品質を大きく左右する重要なステップである。ベースキャリアのアルゴリズムは頻繁に更新され、新しいバージョンやツールも開発されているので、バイオインフォマティクスを行う前に、使用したベースキャリアのバージョンを確認し、メモしておくとよい。Escherichia coliのゲノムシークエンシングに基づく、様々なbasecallerの性能の情報学的評価がhttps://github.com/rrwick/Basecalling-comparison。
de novoメタゲノム・アセンブリのためのツール
ナノポアのLRs-alongアセンブリー用に設計されたアセンブラーのうち、metaFlyeだけが、不均一な細菌組成や種内の不均一性など、メタゲノム解析の課題に対応するために特別に設計されたものである。Miniasmの単純なオーバーラップレイアウトコンセンサスアルゴリズムとWtdbg2のlong-kmer-based fuzzy Bruijn graph [76]は、いずれもメタゲノム解析用として設計されていない。比較的厳格で固定されたカバレッジ要件のため、最も支配的なコミュニティ集団のみをアセンブルすることができた。土壌サンプルあたりのシーケンス深度が10 Gbの場合、これらのツールは5 Mbという小さなコンティグサイズを生成することができます。MetaSPAdesは、イルミナSRとナノポアLRのハイブリッドアセンブリにおいて、ナノポアLRを使用してSRで構築されたDe Bruijnグラフを簡略化し、ギャップを閉じ、リピートを解決するコアアルゴリズムを提供します。また、Unicyclerは、分離された細菌株のハイブリッドアセンブリーアプローチを最適化するために新たに設計されたツールです。Unicyclerは、SPAdesアルゴリズムで構築したグラフにナノポアLRを半球状に配置することで、バクテリアゲノムをより長いコンティグに復元する能力を向上させました。しかし、PNAシステムの112 GbペアエンドSRと69.4 Gb LRのメタゲノム・データセットをアセンブルしたところ、メモリの問題と処理時間の延長により、アセンブル性能が低下した[12]。
LR/contigsの補正を行うツール
LRで組み立てたコンティグの誤りを修正する方法は、主に3つあります。1つ目は、LRのオーバーラップをもとにコンセンサスリードを得る方法である。コンセンサス配列の生成には、RaconとMedakaが有名である。これらのツールは、コンティグ、nanopore raw reads、readsとコンティグ間のオーバーラップ/アラインメントを入力とし、出力として洗練されたコンティグのセットを生成する。第二の方法は、LRで組み立てたコンティグをillumina SRでポリッシュする方法である。Pilonはこのような目的のために現在最もよく使われているツールであるが、インデルの同定手順は通常、統合メタゲノミクスワークフロー全体の中で最も時間のかかるステップである(図2)。一方、Polypolishは、高い研磨精度を示すとともに、コアタイムの面でも効率的であった[77]。最後の方法は、フレームシフト補正である。LASTはこのフレームシフトを考慮したアライメントを考案し、最近Diamondに追加された。FUNPoreとMEGAN-LRは、それぞれLASTとDIAMONDのアライメントを入力とし、フレームシフト補正されたコンティグを生成することができます。ナノポアのLRもLRで組み立てたコンティグと同じ手順で修正できることに注目。
メタゲノム解析のためのビニングツール
イルミナやナノポアを用いたメタゲノム解析の重要なステップは、de novoアセンブリ戦略を最適化し、必要に応じて適切な修正ステップを実行することです。一旦アセンブリが可能になれば、標準的なメタゲノム解析ツールを適用して、高度に連続したHQ-MAGを得ることができるだろう。MetaWRAPとMetaBATは、統合メタゲノム法を適用した文献で最もよく使われるビニングツールの一つである。特に、異なるアセンブルツールから得られる可能性のある極端に長いコンティグ(>1 Mbp)を、後続のビニングステップの初期ビンとして直接使用することは、実用的な提案であろう[13]。MetaWRAP [78]はメタゲノムラッパースイートで、そのビニングモジュールはMetaBAT2 [79], MaxBin2 [80], CONCOCT [81] アルゴリズムを用いてMAGを抽出する複合アプローチを提供し、精緻で重複しないビニング結果を提供するものである。特に、多次元のカバレッジ情報が利用可能な場合に有効である。MetaBAT2は、差分カバレッジビニングを支援するために、追加カバレッジのない単一の統合データセットを処理する際に最もよく使用されるツールです。
補正後LR/contigsのアノテーションツール
補正後のLR/contigのアノテーションは簡単である。Centrifuge [82]とKraken2 [46]は系統樹アノテーションに最もよく使われるツールでした。ただし、Centrifugeは、各リードに対する分類学的な割り当てではなく、コミュニティ全体の系統構成を提供するのみです。そのため、ARGpore2[72]は、MEGANに似たLowest Common Ancestor投票アルゴリズムを適用して、この問題を解決するように設計されています。また、MetaPhlan [83]のクレード特異的マーカー遺伝子データベースをARGpore2に統合し、分類学的アノテーションのための種レベルの解像度を向上させました。Prokkaは、MAGまたは補正後のLR/contigsの機能アノテーションに最もよく使用されるツールです。Prokka が作成した UniProt [84] アノテーションは、KEGG mapper [85] などのツールにより、KEGG パスウェイに容易に割り当てることができます(表 3)。
表3. イルミナやナノポアを用いたメタゲノム解析のためのソフトウエアを紹介する。
バイオインフォマティクスツールのカテゴリー ツール名 説明 参考文献
ナノポアアセンブリ Canu CanuはCelera Assemblerのフォークで、PacBioやナノポアシーケンスで得られたノイズの多いロングリード用に設計されています。CanuのLRアセンブリは、correct-trim-assemblyの階層的なステップで実行されます。また、適応的なオーバーラップ戦略により、ゲノムの回復効率を向上させています。 [53]
metaFlye LRメタゲノム解析における重要な課題を解決するために設計されたナノポアLR用De novoアセンブラ。また、種内(株レベル)の不均一性は、リピートグラフのリードパスに基づいて反復エッジを反復的に特定することで解決されました。 [16]
Miniasm Miniasmは、ノイズの多いナノポアのLRを、オーバーラップレイアウトコンセンサス(OLC)に基づき、非常に高速にデノボアセンブルするツールです。全対全LRの自己マッピングを入力とし、GFAフォーマットでアセンブリグラフを生成します。Miniasmは、主流のアセンブラとは異なり、コンセンサスステップを持たない。そのため、コンティグの塩基数あたりのエラー率は、入力のLRと同程度である。 [52]
メタゲノム解析に最適化されていないため、群集の中で非常に優勢な個体群のみを解析することができる。
Wtdbg2 ノイズが多いPacBioおよびnanoporeのLRを対象としたデノボアセンブラ。エラー修正なしで生のLRをアセンブルし、中間的なアセンブル出力からコンセンサスを構築する。Wtdbg2は、リードを1024bpのセグメントに切り分け、類似したセグメントを1つの頂点にマージし、リード上のセグメントの隣接性に基づいて頂点を接続し、ファジーBruijnグラフ (FBG) を作成します。これはDe Bruijnグラフと似ていますが、ミスマッチやギャップを許容し、Kマーを折りたたんでもリードパスが保持されます。 [76]
FBGはCanuの10倍以上の速度で大規模ゲノムをアセンブルすることができるが、メタゲノムに最適化されていないため、通常、非常に優勢な集団しかアセンブルできない。
ハイブリッドアセンブリー MetaSPAdes MetaSPAdesは、イルミナSRとナノポアLRを古典的なSpadesアルゴリズムでハイブリッドアセンブリーすることができるde novoアセンブラーです。ナノポアLRは、SRで構築されたDe Bruijnグラフを、ギャップを閉じたり、リピートを解決することで単純化するために使用されます。MetaSPAdesはナノポアLRの誤差を補正しません。修正後のnanopore LRは、SPAdesにシングルロングリードとして提供するだけです。 [48]
Unicycler Unicyclerは、細菌分離株のillumina SRとnanopore LRのハイブリッドアセンブラーを最適化するために設計されたde novoアセンブラーである。グラフを単純化し、より長いコンティグを生成するために、SPAdesでSRを基に構築したアセンブリグラフにナノポアLRを半球状にアライメントしています。ナノポアLRのみを入力とした場合、miniasm + Raconパイプラインが実行されます。 [49]
LRs-correction Medaka Medakaは、ナノポアシーケンスデータからコンセンサス配列とバリアントコールを作成するツールです。ドラフトアセンブリに対して個々のシーケンシングリードのパイルアップを適用し、ニューラルネットワークによってタスクを実行します。https://github.com/nanoporetech/medaka。
Racon Raconは、ナノポアLRの迅速なアセンブリによって生成された生のコンティグを修正するための、スタンドアローンのグラフベースのコンセンサスモジュールとして設計されています[57]。 [57]
SRs-correction Pilon Pilonは、ナノポアLRにアラインメントされたイルミナSRのBAMファイルに基づいて、ナノポアデータセットのインデルや一塩基エラーを修正するために使用できるソフトウェアツールである[58]。 [58]
Polypolish Polypolishは、SRを用いたゲノムアセンブリを研磨するツールで、各リードが最適な1ヶ所だけでなく、すべての可能な位置にアラインメントされたSAMファイルを使用します。このため、他のアライメントベースのポリッシャーでは修正できない、繰り返し領域のエラーを修正することができます。 [77]
フレームシフト補正 LAST + FUNpore LASTは、アミノ酸配列からなる機能遺伝子データベースに対して塩基配列をアライメントする際に、フレームシフトを考慮したアライメントを行う最初のアライメントツールです。LASTのAdaptive Seedアルゴリズムは、ナノポアLR上の機能遺伝子同定において最高の感度を示している[86]。 [50, 87]
FUNporeは、LASTのアラインメントで報告されたフレームシフトの位置をもとに、ナノポアLRにNsを挿入してフレームを維持し、フレームシフトのエラーを修正するソフトウェアツールキットである。
Diamond + MEGAN-LR Diamondは、もともとSRアライメント用に設計された高速アライメントツールで、広く使用されています。DIAMOND v 0.9.23から、フレームシフトを考慮したDNA-タンパク質間のアライメントを行う機能が追加されました。 [62]
MEGAN-LRは、ナノポアのLRのフレームシフトエラーを修正するGUIベースのソフトウェアである。MEGAN-LRは、無償コミュニティ版MEGAN6のデフォルトパッケージに含まれています。
アライメント LAST LASTは、適応的なシードとフィッティングアルゴリズムを採用したソフトウェアで、エラーが起こりやすいナノポアLRのDNA間またはDNA-タンパク質間のアライメントに最適なものであった。LASTは、ナノポアLR上の機能遺伝子同定において最も高い感度を示した[86]。 [63]
Minimap2 Minimap2は、大規模な参照データベースに対してDNAやmRNAの配列をアライメントする汎用的な配列アライメントプログラムです。典型的な使用例としては、以下のようなものがあります。(1) PacBioやnanoporeのリードをヒトゲノムにマッピングする、(2) エラー率最大15%のロングリード間のオーバーラップを見つける、(3) PacBio Iso-Seq または nanopore cDNA または Direct RNA リードの参照ゲノムに対するスプライスを考慮したアライメント、 (4) illuminaシングルまたはペアエンドリードを調整する、 (5) assembly-to-assembly align、 (6) 近縁2種間のフルゲノム アライメント(分岐度最大15%以下)を行う、など。 [59]
メタゲノム解析のビニングツール MetaWRAP MetaWRAPは、ビニング、分類学的プロファイリング、機能アノテーションなど、メタゲノム解析のコアタスクを実現する使いやすいメタゲノムラッパースイーツである。MetaBAT2、MaxBin2、CONCOCTの結果を組み合わせて、メタゲノム解析データセットからMAGを抽出することができます。MetaBAT2、MaxBin2、CONCOCTの結果を組み合わせることで、メタゲノムからMAGを抽出し、精緻で再現性の高いビニング結果を提供することができる。特にメタゲノムデータセットの差分ビニングを行う際に有効。 [78]
MetaBAT2 MaxBin 2.0 は、メタゲノムからドラフトゲノムを復元するために Expectation-Maximization (EM) アルゴリズムを採用しています。メタゲノム解析で最もよく利用されるツール。 [79]
このシステムは、新しいインデックス方式を採用しています。このシステムでは、Burrows-Wheeler変換(BWT)とFerragina-Manzini(FM)インデックスに基づく、メタゲノム分類問題に特化して最適化された新しいインデックス作成スキームが使用されています。Centrifugeは、比較的小さなインデックス(例えば、約4100の細菌ゲノムに対して4.3GB)を必要としますが、非常に高速な分類を実現します。 [82]
Kraken2 Krakenは、通常メタゲノム研究によって得られる短いDNA配列に分類学上のラベルを付与するシステムです。Krakenは、k-merの正確なアラインメントと新しい分類アルゴリズムを利用することにより、高感度かつ高速な分類を実現することを目的としています。Krakenの精度はMegablastと同等であり、感度は若干低く、非常に高い精度を持つ。 [46]
ARGpore2 ARGpore2は、Centrifugeのアノテーション結果をもとに、まずMEGAN的なLCA投票アルゴリズムを適用し、各Nanopore LRの分類学的所属を生成したソフトウェアです。次に、MetaPhlan2マーカー遺伝子データベースに対してLASTを適用し、分類の妥当性を検証する。このマーカー遺伝子は、バクテリア、古細菌、真核生物、ウイルスの同定において、種レベルの分解能を達成できるユニークなクレード特異的なマーカー遺伝子である。また、本ツールは、SARGデータベースのnt版に対してLASTを行うことにより、ナノポアLR上の抗生物質耐性遺伝子をアノテーションする[88]。 [72]
機能アノテーション Prokka Prokkaは、細菌、古細菌、ウイルスのゲノムを迅速にアノテーションし、標準に準拠した出力ファイルを作成するためのツールです。全ゲノムアノテーションとは、ゲノムDNA配列の集合から注目すべき特徴を特定し、有用な情報をラベル化するプロセスである[67]。 [67]
略語 GFA, graphical fragment assembly; LR, long read; SR, short read.
まとめ
このレビューでは、イルミナとナノポアを統合したメタゲノム微生物研究の完全なワークフローを議論した。アルゴリズムや計算上の課題はあるものの、このような統合的なアプローチは、メタゲノム解析を容易にし、複雑な環境微生物相の機能性を解読する上で、ゲノム分解能を向上させる最も強固な戦略であると言える。多くの研究者が、この統合的なアプローチを利用して、断片化しない、よく磨かれた完成品に近いMAGを得たり、複雑な微生物相の代謝能力スペクトルを広げることに成功しています。このレビューで取り上げた分析手順とバイオインフォマティクスツールは、この急速に発展している分野での応用上の懸念に対応するものである。しかし、ナノポアLRのベースあたりの精度が将来的に向上すれば、Q50 LR単独でのアセンブリが可能になり、変化し続けるメタゲノム研究の状況をさらに変化させる可能性があることは認めざるを得ない。Sereikaらは、R10.4ケミストリー由来のナノポアLRが、イルミナSRの助けを借りずにほぼ完成したバクテリアゲノムを生成できることをすでに示しています[71]。さらに、2022年9月、イルミナ株式会社は、illumina complete LRと名付けられた高性能LRsアッセイの性能を発表した。このアッセイは、N50が6~7kbのデータを、99.87%の精度とリコールの複合統計値で生成することができた。これらの証拠から、メタゲノム研究を含む生物学的研究の遺伝子配列決定において、LR単体の将来が予測される。現在、LRs-aloneによるマイクロバイオーム研究の大きな制約となっているのは、微生物組成が不均一に分布するコミュニティを効果的に構築するために必要なカバレッジが不十分であることです。このボトルネックを克服するためには、メタゲノム特性に最適化された新しいde novoアセンブリアルゴリズムの開発に加え、ナノポアシーケンスや関連する塩基判定アルゴリズムのさらなる改善など、塩基あたりの精度に関する技術の進歩が不可欠である。さらに、ReadUntil法などの新しいナノポアシーケンスプロトコルを適用することで、優勢な微生物からのリードを選択的に拒絶することにより、微生物相内の希少集団のシーケンスの深さを十分に向上させることが可能である。最後に、徐々に低下するコストは、LRs-aloneメタゲノム景観を促進するもう一つの要因であろう。
著者の貢献
Xia Yu: 概念化、執筆-原案、執筆-校閲・編集、監修、資金獲得。李祥:資金獲得、執筆-校閲-編集。Wu Ziqi:調査・執筆(原案)。Nie Cailong: Nie Cailong:原案作成。Cheng Zhanwen: 形式解析と可視化。孫玉宏。データキュレーションと執筆-原案。Liu Lei:執筆、校閲、編集。Zhang Tong: 執筆-校閲-編集。
謝辞
本研究を遂行するにあたり、中国国家重点研究開発計画(助成番号2022YFE0103200)、中国国家自然科学基金(助成番号42007216、42177357、42277103)の資金援助に感謝する。また、南方科技大学(SUSTech)計算科学工学センターとSUSTechの中核研究施設には、質の高いリソースとサービスを提供していただき、感謝いたします。
利益相反
著者は利益相反がないことを宣言している。