MetaPhlAn 4を用いた未同定種のメタゲノム分類学的プロファイリングの拡張と改善

本文へスキップ
ネイチャーバイオテクノロジー
検索
ログイン
コンテンツ
Natureについて
掲載
記事
PDFダウンロード
記事
オープンアクセス
公開日:2023年2月23日
MetaPhlAn 4を用いた未同定種のメタゲノム分類学的プロファイリングの拡張と改善

https://www.nature.com/articles/s41587-023-01688-w


アイトール・ブランコ=ミゲス、フランチェスコ・ベギーニ、...ニコラ・セガタ 著者一覧を見る
Nature Biotechnology (2023)この記事を引用する

19kアクセス

24件の引用

143 Altmetric

指標詳細

概要
メタゲノム解析は、微生物群集から新しい生物を発見することを可能にするが、ほとんどのメタゲノムからは少数の豊富な生物しか捉えることができない。本論文では、より包括的なメタゲノム分類学的プロファイリングのために、メタゲノムアセンブリと微生物分離ゲノムからの情報を統合したMetaPhlAn 4を紹介する。1.01Mの原核生物のリファレンスゲノムとメタゲノムから構築されたゲノムのキュレーションコレクションから、26,970の種レベルのゲノムビン(そのうち4,992は分類学的に種レベルで未同定)に対してユニークなマーカー遺伝子を定義した。MetaPhlAn 4は、ほとんどの国際的なヒト腸内細菌叢のリードを20%以上、ルーメン微生物叢のようなあまり特徴的でない環境では40%以上多く説明し、培養分離株のない生物も確実に定量しながら、合成評価で利用可能な代替案よりも正確であることを証明した。この方法を24,500を超えるメタゲノムに適用することで、これまで検出されていなかった種が、ヒトやマウスのマイクロバイオームにおける宿主の状態や生活様式の強力なバイオマーカーであることが明らかになり、これまで同定されていなかった種であっても、単一微生物株の分解能で遺伝学的にプロファイリングできることが示された。

主な内容
過去25年間にわたり、ショットガンメタゲノムシーケンス1および関連する計算科学的手法は、ヒト、動物、および自然環境に生息する複雑な微生物群集の分類学的組成2,3,4,5,6および機能的可能性4,7,8を研究するための頑健で効率的な方法として発展してきた。微生物単離株用に開発されたゲノムアセンブリー法は、ショットガンメタゲノムにも適用できるように拡張されてきたが、コミュニティから新しい生物を同定することには優れているものの、その感度は環境の複雑さによって制限されることが多い9。リファレンスベースの計算機的アプローチは、アノテーションされた参照配列情報に依存してアセンブリーを補完し、代わりに相同性によってマイクロバイオーム内に存在する既知の分類群と遺伝子を正確に同定・定量する4,5,6,7。この一連の手法により、ヒトマイクロバイオームを深く探索し、複数の健康状態10,11,12,13,14,15,16,17,18や食事パターン19,20,21,22,23と微生物との関連性を発見することが可能になっただけでなく、微生物種や菌株の進化や伝播の特徴を明らかにすることも可能になった24,25,26,27,28,29。しかし、リファレンスベースの手法では、利用可能なリファレンスデータベースに含まれるカタログ化された微生物種しか検出できず、通常、環境全体における群集メンバーのほんの一部しか表現していないため、ショットガンメタゲノム30 の解釈には限界がある。

逆に、メタゲノム集合ゲノム(MAGs)と呼ばれる、ドラフト遺伝子やゲノムを再構築するためのde novoメタゲノム・アセンブリは、メタゲノムから直接回収するための非常に高い特異性(感度は低いことが多いが)まで進歩している31,32,33,34,35。これにより、まだ単離や特性解析が行われておらず、参照データベースにも存在しない微生物配列を回収することができる36。ここ数年でメタゲノム解析とビニングが飛躍的に進歩したため31,32,33,34,35、大規模なMAGカタログが作成され、多様な環境に生息する未知の未培養微生物種が膨大な量にのぼる37,38,39,40,41,42,43,44,45,46。しかしながら、このようなメタゲノム解析技術では、多くの分類群に対するカバレッジが不十分であること、遺伝的に近縁な分類群が存在するために解析が妨げられたり、偽の解析が行われたりすること、そして得られたMAGの品質管理が困難であることなどから、複雑な群集に含まれる生物の限られた一部しか捉えることができないのが一般的である9。

リファレンスベースとアセンブリーベースの両方のメタゲノムプロファイリングの長所を活用するために、微生物ゲノムとMAGの統合された拡張コンペンディウムを利用して、種レベルのゲノムビン42(SGB)の拡張セットを定義し、メタゲノムにおけるそれらの存在と存在量を正確にプロファイリングする方法であるMetaPhlAn 4を紹介する。SGBsは、既存の種(既知種、kSGBs)、またはMAGs42のみに基づいて定義されたまだ特性化されていない種(未知種、uSGBs)の両方を表す。最新のゲノムカタログ37,38,39,40,41,42,43,44,45と、複数の環境にまたがる追加的に新しく組み立てられたMAGを統合した、101万個の細菌と始原生物のMAGと分離ゲノムのコレクションから、まず54,596個のSGBの定義を拡張し、次に21,978個のkSGBと4,992個のuSGBについて、SGB固有のユニークマーカー遺伝子(つまり、各SGBをユニークに特徴付ける遺伝子)を定義した。その結果、既存のMetaPhlAnアルゴリズム2,3,4が拡張され、ヒト、宿主関連、環境微生物の定量的分類学的解析がより深く正確に行えるようになり、マイクロバイオームと宿主の状態を関連付ける数多くの研究に対する洞察が得られた。

研究結果
種レベルのゲノムビンのMetaPhlAn 4プロファイリング
MetaPhlAn 4は、広範なメタゲノム集合体を既存の細菌および古細菌の参照ゲノムと統合するフレームワークを利用することで、メタゲノムの分類学的プロファイリングを実行する既存の機能を拡張・改善する。次に、これらを共同で前処理することで、数百万のユニークなマーカー遺伝子に対する効率的なメタゲノムマッピングを可能にし、最終的に新しいコミュニティにおける単離された生物とメタゲノムでアセンブルされた生物の両方を定量化する。このアルゴリズムは、以前のバージョンで使用されていたものを、以下の4つの主な方法で増強している: (1) 主要な分類単位としてのSGBs42の採用。SGBs42の各々は、微生物ゲノムとMAGを、一貫性のある既存の種と、ほぼ種レベルの多様性を持つ新しく定義されたゲノムクラスターにグループ化する; (3) 分類学的にラベル付けされた微生物ゲノムの一貫性に基づく微生物分類単位のキュレーションと、MAGのみで定義されたSGBへの新たな分類学的ラベルの割り当て、(4) MetaPhlAn参照ベースのマッピング戦略のために、各SGBからユニークなマーカー遺伝子を抽出する改良された手順2,3,4。このように、MetaPhlAn 4は、未知の分類群40,41,42,45を発見する可能性を持つメタゲノム解析と、正確な分類学的同定と定量を提供する参照ベースのプロファイリングの感度の両方の側面を活用している。

分類学的解析の主要な単位としてSGBを採用することは、このアプローチの中心である42。簡単に説明すると、SGB42は、ゲノム同一性5%における全ゲノム遺伝的距離のクラスタリングに基づいて、純粋に微生物種を定義し47、その後、分離株のシーケンスから特徴付けられたゲノムの有無に基づいて、分類学的ラベルをSGBに割り当てることができる。この定義により、任意の微生物ゲノムをアンプリコンと変わらない方法で操作分類学的単位(OTU)に整理することができ、既存の分類学で予想される境界と驚くほどよく一致する42,47,48。このようにして、利用可能な微生物参照ゲノムと中~高品質のMAGは、分類学的に明確に定義された種(SGBに分類学的に利用可能な分離ゲノムが存在する場合、「既知」SGBまたはkSGB)または未知の同等のクレード(uSGB)にグループ化される。

SGBクラスタリングアプローチに従い、MetaPhlAn 4で採用されているデータベースには、もともと分類学的に誤って別々の種としてラベルされていた種が統合された結果のSGBが含まれている。例えば、NCBI49でLawsonibacter asaccharolyticusとClostridium phoceensisに割り当てられたゲノムは98.7%同一であるが、これは新種のメンバーが独立して命名されたためと思われ、SGB15154にマージされた(補足表1)。この統合は、遺伝学的に区別が困難または不可能な分類学上の種(例えば、プラスミド配列によってのみ遺伝学的に区別されるセレウス菌グループの種50)にも適用されるため、同じSGBにクラスター化される。逆に、5%以上の遺伝的同一性で分岐するサブクレードを持つ種は、複数のSGBに分割された(例えば、Prevotella copriは4つの異なるSGBで表され51、Faecalibacterium prausnitziiはその異なる(サブ)種を表すSGBを持つ52;補足表1)。最後に、分類学的に正しく分類されていない、あるいは部分的に分類されている参照ゲノムが検出され、NCBIゲノム提出者によるスペルミスや誤った割り当てに起因する異常値ラベルの検出に基づいて修正されました(例えば、Staphylococcus epidermidis SGB7865は700の参照ゲノムから構成され、そのうちの32はNCBIデータベースで異なる、あるいは特定されていない種ラベルを持っています49、補足表1)。

MetaPhlAn 4でプロファイリングされるSGBのデータベースを作成するために、単離株ゲノムコンポーネントには、NCBI53で利用可能で、「単離株シーケンスまたは単一細胞から再構築された」とラベル付けされた236,620の細菌およびアーケアルゲノムが含まれた。これらは、ヒト(5つの異なるヒトの主要部位、164の異なるヒトコホート)、動物宿主(22の非ヒト霊長類種を含む)、および非宿主関連環境(土壌、淡水、海洋を含む)から収集されたサンプルから組み立てられた771,528のMAGと統合された。品質管理基準(すなわち、ゲノムの完全性が50%以上、コンタミネーションが5%以下;Methodsを参照)を満たさない参照ゲノムおよびMAGを除去した後、カタログは729,195ゲノム(560,084MAGおよび169,111参照ゲノム)から構成され、5%の配列類似度でSGBにMash54クラスタリング42され、最終的に70.9k個のSGBからなるデータベースになりました。このカタログは、uSGBによって非常に一貫して濃縮されている95の異なる系統にまたがっている(補足表4)。オリジナルのSGBカタログ42と比較すると、今回のコレクションは非常に多様な環境から3.6倍のMAGを統合し(補足表3)、4.3倍のSGBを定義する結果となった。このリポジトリは、これまで説明されてきたものよりも大規模なゲノムベースの研究に利用することができるが40,41,42,45,51,55,56,57、ここではメタゲノムからの分類群の同定と定量化という課題に焦点を当てた。この目的のため、また、強力なサポートがないSGBや極めて稀なSGBの偽陽性検出の可能性を減らすため、後続のメタゲノムプロファイリングのために、異なるサンプルから少なくとも5つのMAGを含むuSGBのみを残し、最終的に29.4kの品質管理されたSGBのカタログを作成した(Methodsを参照)。

図1: MetaPhlAn 4は、メタゲノム分類学的プロファイリングのために、分離ゲノムとメタゲノム集合ゲノムからの参照配列を統合している。
図1
a, 70,927の種レベルのゲノムビン(SGB)にまたがる1.01 Mの細菌および始原生物の参照ゲノムとメタゲノム-アセンブルゲノム(MAG)のコレクションから、我々のパイプラインは、MetaPhlAn 4で使用される5.1 MのユニークなSGB特異的マーカー遺伝子を定義した(平均、 b,拡張されたマーカーデータベースにより、MetaPhlAn 4は26,970のSGBの存在を検出し、相対的な存在量を推定することができる。プロファイリングは、まず(1)入力メタゲノムのリードをマーカーデータベースに対してアライメントし、(2)低品質なアライメントを破棄し、(3)各SGBにおけるマーカーのロバスト平均カバレッジを計算し、(4)SGB間で正規化してSGBの相対存在量を報告することで行われる(Methods参照)。すべてのデータは平均値±s.d.で示されている。

フルサイズ画像
このSGBゲノムカタログから、各SGBのパンゲノム(SGB内の少なくとも1つのゲノムで見つかった全遺伝子ファミリーのコレクション)を構築し、MetaPhlAnプロファイリングのための種特異的マーカー遺伝子を同定するために使用した。パンゲノムは、全729kゲノムのコード配列を、UniRefデータベース内で90%のアミノ酸同一性が一致した場合にUniRef90クラスター58に分類するか、またはUniclust90基準59(Methods参照)に従って90%のアミノ酸同一性で残りの全配列をde novoクラスタリングすることによって構築された。得られた5,060万個のUniRef90同一性と7,770万個の新しいUniclust90遺伝子ファミリーから、コア遺伝子ファミリー(SGBのほとんど全てのゲノムとMAGに存在するもの。この手順により、26,970個の高品質なSGBにまたがる510万個のユニークなマーカー遺伝子が得られ、SGBあたり平均189±34個のユニークなマーカー遺伝子が得られた。MetaPhlAn 4の分類学的プロファイリングでは、これらのマーカーを用いて、十分な割合のSGB特異的マーカー遺伝子(デフォルト20%)のリードマッピングによる検出に基づいて、新しいメタゲノムにおけるSGB(既知または未知)の存在を検出し、サンプル内正規化平均カバレッジ推定値に基づいてそれらの相対的な存在量を定量する(Methods; 図1b参照)。

MetaPhlAn 4による分類学的プロファイリングの性能向上
MetaPhlAn 4の分類学的プロファイリング性能を評価するために、まず、133の合成メタゲノム(~4B total reads)を用いて、よく特徴付けられた生物種(つまりkSGBに属する生物種)をプロファイリングする能力を、利用可能な手法と比較して評価した。これらの合成サンプルの大部分(128)は、CAMI 2分類学的プロファイリングチャレンジ60から得られたもので、宿主関連および海洋コミュニティを表している。残りの5つは、以前の評価4よりも多様な環境を表す、ヒト以外の合成メタゲノム(SynPhlAn由来。

OPALベンチマークフレームワーク61を通して、MetaPhlAn 4をMetaPhlAn 3(参考文献4)、mOTUs 2.6(参考文献6)(2021年3月現在利用可能な最新のデータベース)、Bracken 2.5(参考文献5)(2つのデータベース、1つは2019年4月のRefSeqリリース62を使用して構築されたもの、もう1つはGTDBリリース207(参考文献63)を使用して構築されたもの)と比較して評価した。Bracken 2.5で報告された高い偽陽性率のため、低存在のヒット(最小相対存在量0.01%;補足図1)をフィルタリングしてその性能を評価することにした。MetaPhlAn 4は、共通参照NCBI分類法に基づいて計算されたF1スコア(図2a)を評価した場合、他のツールよりも優れていた。これは、OPALがSGBで定義された種グループ(つまり、分類学的に誤って分離種とラベル付けされ、同じSGBに含まれる単一種)を考慮せず、対応するラベルと一致できないMetaPhlAn 4のプロファイリングにペナルティーを与えているという事実にもかかわらず、同様であった、 96.65±66.08と85.32±61.95の真陽性)、一方で偽陽性の数は低いままであった(それぞれ平均16.09±17.65と13.63±16.56;補足図2a,bと補足表5)。偽陽性の大部分(84.6%)は、SGBで定義された種グループの新しいラベルによるものであり(例えば、ほぼすべてのCAMI 2経口メタゲノムに存在するMarinilactibacillus sp.15Rは、Marinilactibacillus piezotolerans SGB7875種グループに属する)、したがって、厳密には偽陽性でもない。実際、単離配列(Methodsを参照)を用いた更なる評価では、デフォルトのパラメータでMetaPhlAn 4を実行した場合、偽陽性のヒットはなく、カバレッジ≧0.5×の場合、全てのケースで偽陰性はなかった。このカバレッジ閾値は、MetaPhlAn 4が、標準的な深さ10Gbaseのメタゲノミックサンプルに対して、少なくとも0.01%の相対存在量にある全てのSGBの検出を保証し、より低い存在量での検出も頻繁に可能であることを意味する(補足表6)。リコール率の向上は、MetaPhlAn 4に含まれるリファレンスゲノムのカタログが拡張されたこと(MetaPhlAn 3では13.5k種の99.2kゲノムであったのに対し、MetaPhlAn 4では31.9k種の169.1kゲノム)で説明できる。

図2: MetaPhlAn 4はメタゲノム分類学的プロファイリングの感度と特異性を向上させた。
図2
a, 分類学的プロファイリングにおける性能を評価するため、MetaPhlAn 4を、CAMI 2分類学的プロファイリング課題60(n = 128サンプル)およびSynPhlAn-non-humanデータセット(n = 5サンプル)から得られた宿主関連コミュニティを表す合成メタゲノムに適用した。OPALフレームワーク61を用いた種レベルの評価では、MetaPhlAn 4は、どの分類群が存在するかの検出(F1スコアは、検出の精度と想起の調和平均)およびそれらの定量的推定(BCベータダイバーシティは、推定されたプロファイルとゴールドスタンダードにおける存在量の間で計算)の両方において、利用可能な代替案よりも正確であることが示された。SGB組織内のゲノムを用いて行われた追加評価('SGB evaluation'と表示;Methodsを参照)は、MetaPhlAn 4がこのより洗練された分類学的レベルでさらに精度を向上させることを示している。詳細は補足表5と7を参照(GI, gastrointestinal; UT, urogenital tract)。 b, MetaPhlAn 4を、異なる宿主および非宿主関連環境をモデル化し、kSGBとuSGBの両方から平均47ゲノムを含む合成メタゲノム(n = 70サンプル)に適用した(Methods参照)。SGBを直接用いたこの評価は、既知および未知の微生物種の両方を定量化するMetaPhlAn 4の信頼性を示している。ゲノムデータベースの構築では考慮されなかったサンプルからの新しいMAGの混合物に基づく追加評価(混合評価、n = 5サンプル)は、プロファイリングデータをデータベースに含めることとは独立に、その精度を強調している。詳細は補足表9と10を参照(NHP=非ヒト霊長類、W=西洋化、NW=非西洋化)。aおよびbの箱ひげ図は、中央値(センター)、25/75パーセンタイル(下ヒゲ/上ヒゲ)、1.5×四分位範囲(ヒゲ)、外れ値(ポイント)を示す。

フルサイズ画像
次に、Bray-Curtis(BC)非類似度と合成参照群集組成に対する二乗平均平方根誤差(RMSE)を用いて、MetaPhlAn 4の相対存在量定量化性能を評価した。MetaPhlAn 4は、以前のMetaPhlAnバージョン3(平均BC、0.19 ± 0.12、平均RMSE、0.016 ± 0.019)を含む代替手法(平均BC、0.13 ± 0.07、平均RMSE、0.016 ± 0.019)を上回った。RMSE、0.019±0.018;補足表7および図2a)。マーカーセットの品質がこの改善の原動力であると思われるが、これはSGBの系統的一貫性の結果であり、同一の標識が付けられた分類群がゲノム的に一貫していることを保証している。これにより、手作業で割り当てられたオリジナルの分類学的ラベルにおける検出困難な分類学的ミスラベルを回避し、(1)より大きなマーカー遺伝子セットを得ることができた(平均、 189±34(MetaPhlAn3では84±47)、(2)より信頼性が高く(補足表6と補足図3)、(3)よりユニーク(MetaPhlAn3では72.7%に対し99.3%のマーカー、環境によってはランダムに割り当てられたリードが3.8倍から15.55倍少ない:補足表8)。

また、MetaPhlAn 4では、SGBに基づく分類法を用いて、同じ合成メタゲノム上で評価を行った(Methods参照)。各ゲノムが属するSGBをゴールドスタンダードラベルとすることで、MetaPhlAn 4はF1スコア(平均0.95±0.06)とBC非類似度(平均0.031±0.023;図2a)の両方で高い精度を達成した。

最後に、分類学的に特徴付けられた分離株を持たないクレードを表すuSGBを特異的に検出するMetaPhlAn 4の性能を評価した。メタゲノムアセンブリー(Methods参照)により、各環境の実際のメタゲノムで発見・再構成されたkSGBとuSGBの両方を用いて、12種類のヒトの身体部位、動物の宿主、および非宿主関連環境のマイクロバイオームをシミュレートする65の合成メタゲノムを構築した。また、元のゲノムデータベースに含まれていないサンプルのMAGと参照ゲノムを混合して、さらに5つの合成メタゲノムも構築した(Methods参照)。MetaPhlAn 4は、uSGBs(平均F1スコア、0.97±0.02;図2bおよび補足図2c,d)の検出と定量において、既知種(kSGBs;平均F1スコア、0.96±0.024;図2a)と同等の精度を示した。F1スコアとゴールドスタンダードに対するBC類似度は、評価したすべての異なる環境で一貫していた。MetaPhlAn 4データベースが構築された時点では入手できなかったMAGに基づく合成サンプルでも、同様の結果が得られた(平均F1スコア、0.98±0.006;図2b、補足表9および10)。全体として、MetaPhlAn 4は合成データにおいて他の利用可能なツールよりも優れており、分類学的に明確に定義された種について高い精度を維持しながら、まだ特徴づけられていない種の定量化をさらに提供した。

MetaPhlAn 4はメタゲノムのプロファイリングを拡大する
MetaPhlAn 4のデータベースは、定量可能な既知の微生物種の数を拡大し(MetaPhlAn 3より18.4 k種増加)、kSGBs(21,978 kSGBs、1種あたり平均1.15 kSGBs)によって記述された多くの種の解像度を向上させ、4,992のまだ特性化されていない微生物種(uSGBs)を含む。我々は、ヒト、動物、および非ホスト関連環境から得られた合計24.5 kのメタゲノムサンプル(145の異なる研究、補足表11)をプロファイリングすることで、メタゲノム中のリードの大部分を説明する能力の向上を評価した(図3aおよび補足図4)。さらに、19.5 kのヒトメタゲノムを、出身部位とドナーのライフスタイル(つまり、西洋化または非西洋化)に基づいて分割した(西洋化の詳細については、Methodsを参照)。

図3: MetaPhlAn 4は、主にまだ特性化されていない種(uSGB)を定量化することによって、観察可能な微生物の多様性を拡大する。
図3
a, MetaPhlAn 4プロファイリングを、多様な環境から得られた合計24.5 kのメタゲノムサンプルに適用し、人体の部位や宿主のライフスタイルの違いを考慮した場合でも、マイクロバイオーム組成を検出し、それらの間に明確な違いがあることを強調した(補足図5bおよび補足表11)。b, MetaPhlAn 4の拡張されたゲノムデータベースは、生息地タイプ(n = 24,515サンプル)において、以前のMetaPhlAnバージョンと比較して、分類されたリードの推定割合を大幅に増加させた。c, MetaPhlAn 4は、ヒトの腸内マイクロバイオームあたり平均48種の未知の細菌種(uSGB)を検出し、ヒト以外の環境では700種以上に達する(n = 24,515サンプル)。欧米化した生活様式および非欧米化した生活様式で最も流行している10種のkSGBを、最も流行している順に示し、MetaPhlAnゲノムカタログのヒト腸管メタゲノムからアセンブルしたMAGの数とともに報告した。e,非西洋化集団で最も流行しているSGBは、まだ培養されておらず、命名されていない種に属している。f,西洋化した集団では、最も流行しているkSGBとuSGBは年齢カテゴリーによって異なる。g、kSGBに対するuSGBの割合は乳児期以降に増加する(n = 19,468)。b、c、gの箱ひげ図は、中央値(中央)、25/75パーセンタイル(下ひげ/上ひげ)、1.5×四分位範囲(ひげ)、外れ値(点)を示す。NHPは非ヒト霊長類、Wは西洋化、NWは非西洋化、Aは古代。

フルサイズ画像
得られた分類学的プロファイルにおいて、MetaPhlAn 4は、いずれかの環境のサンプルの少なくとも1%に存在する11,132のSGBを検出し、そのうち3,527(31.68%)は種レベルで分類学的に未知のもの(uSGB)であった。新しいプロファイルは、すべての環境において、以前のバージョンと比較して、メタゲノムサンプル中のリードの大部分を説明した(図3b)。ヒトの体内では、気道で高い改善がみられ(説明可能なリードの平均1.95倍増加)、例えば、非ヒト哺乳類の腸内細菌叢のサンプルでは、野生マウスの平均3.26倍増加からルーメンの14.15倍増加まで、大幅に高い改善がみられた。これらの動物では、検出されたuSGBの平均数がkSGBのそれを上回った(非ヒト霊長類を除く;図3cおよび補足図5a)。これらの増加は、ヒト以外のマイクロバイオームから新たにuSGBを定義したと考えられるMAGの数(1,287個のuSGBを定義する90,606個のMAG)と一致していた。

環境生態系では、メタゲノムがMetaPhlAn 4で検討された分類群によって説明されることは一般的に少なく、特に土壌は、その顕著な微生物の変動性と、土壌を対象とした系統的な大規模メタゲノム解析の取り組みの欠如のために、依然として特徴付けが不十分であった(我々のデータベースでは、26個のuSGBを定義する2,495個のMAGのみ)一方、海洋マイクロバイオームは6.65倍に増加したが、これは主にSGBデータベースにタラ海洋MAG64が含まれたことによる(図3c)。全体として、uSGBは、MetaPhlAn 4でプロファイリング可能なメタゲノム(図3b)の割合を増加させるのに有効であり、すべての環境(図3c)において、得られたプロファイルの豊かさの平均23.13%(s.d.: 17.89%)を占めた。

SGBプロファイリングにより、環境間の種の重複が明らかになった
リファレンスベースのメタゲノムプロファイリングは、アセンブルと比較して、低濃度でアセンブル困難なゲノムを検出できることが大きな利点である37,39,40,42,43,45。これにより、メタゲノムのアセンブリーのみから得られたデータでは技術的な不検出が多く、正確な定量化が困難な、有病分類群や希少分類群に関する信頼性の高い生態統計を作成することができる。このデータセットにおいて、MetaPhlAn 4は、非西洋化ヒト集団の腸内サンプルから少なくとも1%の割合で見つかった1,657のSGB(このうち550がuSGB)、一般的に多様性の低いヒト膣内マイクロバイオームで同じ有病率の閾値にある331のSGB(このうち61がuSGB)、および他の環境では中間の数を同定した(補足図5b)。

このことから、古代のサンプル(利用可能なデータセットでは5,300年前から150年前の範囲)から取得された腸内メタゲノムには、西洋化した集団(748 SGBs)よりも現代の非西洋化集団(1,039 SGBs)の腸内細菌叢の1%以上の有病率にあるSGBsと共通するものが多いことが確認された。同様に、1%という同じ有病率の閾値を採用した場合、非ヒト霊長類(飼育下を含む)の腸内で見つかったSGBは、現代のもの(668 SGB)よりも古代のマイクロバイオーム由来の腸内サンプル(879 SGB)と重複しており、ヒトのマイクロバイオームの形成にライフスタイルが影響していることがさらに浮き彫りになった(補足図5b)。同様の環境適応は、実験用マウスの腸内細菌叢でも観察することができ、野生マウスの腸内細菌叢(53 SGBs)に比べ、現代ヒトの腸内細菌叢(481 SGBs)ではより多くのSGBsが見つかった。28のSGBがヒトの全身の部位に1%以上の有病率で存在し(補足表12)、典型的な口腔微生物で構成され、下部消化管に到達し、皮膚を汚染し、膣のような他の粘膜部位にコロニー形成する可能性がある、 すなわち、Haemophilus parainfluenzae group(SGB9712)、Streptococcus salivarius group(SGB8007)、Veillonella parvula(SGB6939)、Rothia mucilaginosa(SGB16971)およびStreptococcus oralis(SGB8130)である。

現代人の腸内環境と海水サンプルの間で共有されている9つのSGB(補足表13)がそうであるように、同じ1%の有病率の閾値で環境間で重複している種は、汚染の可能性を見つけることもできる。これらの微生物は主に皮膚微生物と口腔微生物であり、実験室での処理中に生物量の少ない水試料を汚染する可能性がある: Cutibacterium acnes(SGB16955)、Staphylococcus aureus(SGB7852)、Streptococcus thermophilus(SGB8002)、Escherichia coli(SGB10068)、V. parvula(SGB6939)、Staphylococcus epidermidis(SGB7865)、Staphylococcus hominis(SGB7858)、Streptococcus mitis(SGB8163)、R. mucilaginosa(SGB16971)。全体として、新しいMetaPhlAn 4プロファイリングは、ほとんどの非宿主関連環境からのマイクロバイオームが、それ自身とヒトマイクロバイオームとの間にほとんど重複がないこと(補足図5c)、そして予想通り、異なる身体部位からのヒトマイクロバイオームは、限定的ではあるが関連する重複があることを強調している(補足表12)。

MetaPhlAn 4はヒト腸内細菌の有病種を拡大した
異なる年齢カテゴリー、地理的場所、ライフスタイルにまたがる86のデータセットから得られた19.5 kのヒト腸内メタゲノムを用いて、ヒト個人の腸内細菌叢におけるSGBの有病率を評価した(補足表14)(補足表15)。欧米化した集団で最も多く見られたSGBは既知の種由来のものであり(図3d)、具体的にはBlautia wexlerae(SGB4837、89.2%)、Bacteroides uniformis group(SGB1836、88.1%)、Phocaeicola vulgatus(以前はBacteroides vulgatus、SGB1814、85.8%)であった。F. prausnitziiの4つの異なるSGBが最も流行している上位10種の中に現れ、そのうちの3つは両方の生活様式においてかなり異なる流行を示した(図3d)。このことは、SGBプロファイリングが特に遺伝的に分岐している種の解像度を高める能力を持つことを強調している52。Cibionibacter quicibialis42や、ほとんど未解析のままではあるが塩基配列の決定された代表的な菌が存在することからkSGBと考えられている他のいくつかの興味深い菌種(例えば、Oscillibacter sp. ER4)も、高い有病率で見つかった(図3d)。

ほとんどのuSGBはこの集団では有病率が低かったが、ルミノコッカス科の4つのuSGBは有病率が75%を超え、その多くは西洋化した集団と比較して非西洋化した集団で大幅に有病率が高かった(図3e)。各年齢層で最も高い有病率を示した菌種は、他の年齢層では有病率にばらつきがあり(図3f、補足図6、補足表14)、uSGBは幼児期や成人期に比べて研究が不十分と思われる小児期に特に多い傾向があった(図3g、補足表16)。全体として、集団および生活様式にわたって新たに確立されたSGBsの有病率(補足表14)は、先行するメタゲノム研究によって確立された有病率の規模と詳細を拡大するものである。

マウスにおける食事のバイオマーカーはuSGBsに支配されている
MetaPhlAn 4は、1,906のマウス腸内メタゲノム(研究室マウスと野生マウスの両方)からアセンブルされた22,718のMAGを統合し、540のuSGBを定義し、マウス腸内のプロファイリングにおいてより高い解像度を可能にした。8つの遺伝的背景と6つの異なるベンダーにまたがる184のマウス腸内細菌叢の異種公開データセット(補足表17)65に適用すると、MetaPhlAn 4は632の異なるSGBを検出し、その45.57%は同じサンプルセットから再構成されたMAGだけでは検出されなかった(補足表18)。メタゲノム解析に基づくワークフローを用いた最近の研究66ですでに指摘されているように67、マウス腸内で検出されたSGBのほとんど(60.8%)はuSGBであった(図4aおよび補足図7a)。対照的に、同じサンプルからMetaPhlAn 3で検出されたのは、わずか108種であった。興味深いことに、サンプルの75%以上に存在する43種のSGBのうち、ほとんどがuSGBである。12種のkSGB自体は、Lachnospiraceae bacterium 28_4 (SGB7272)、Dorea sp. 5_2 (SGB7275)、Oscillibacter sp. 1_3 (SGB7266)のような、特徴づけが不十分な種を表しており、これらもMetaPhlAn 3で検出可能な唯一の種であった。分離ゲノムに対する多くのマウスマイクロバイオームの低いマッピング可能性は、種よりも高い分類レベルでも反映されており、20%以上のサンプルに存在するファミリー(つまり、SGBと同様に定義されるが、最大30%の塩基分岐にまたがるファミリーレベルゲノムビン(FGB);Methodsを参照)の半分以上がまだ未解析である(uFGB;図4bおよび補足図7b)。

図4: MetaPhlAn 4は、少数の培養分離株を含むマウスマイクロバイオームの正確なメタゲノムプロファイリングを可能にする。
図4
a, 8つの遺伝的背景と6つの異なるベンダー65にまたがるマウス腸内マイクロバイオームサンプルコホート(n = 181サンプル)のMetaPhlAn 4分類学的プロファイリングにより、検出された微生物分類群の大部分は、配列決定された分離株の代表を含まない未同定SGB(uSGB)であることが明らかになった。 b, マウス腸内マイクロバイオーム(n = 181サンプル)において最も一般的なファミリーのいくつかは、ファミリーレベルではまだ未同定(uFGB)である。サンプルの少なくとも20%で検出され(丸と右側のY軸)、相対存在量の中央値が1%を超えるFGB(箱プロットと左側のY軸)を示す。 c, MetaPhlAn 4プロファイルに適用したランダム効果モデルにより、高脂肪食および低脂肪食の微生物バイオマーカーのほとんどが未特定種であることが明らかになった(FDR < 0. 2)。微生物バイオマーカーのlog10変換相対量をヒートマップで、その効果量(線形モデルベータ係数)を棒グラフで表した。kSGBs については、種名を括弧内に SGB ID とともに示しています。SGB41568はNCBIで未分類の門に分類されたと報告されているため、王国のラベルのみを報告する。SMUC = Southern Medical University in China, CMR = Craniofacial Mutant Resource at the Jackson Laboratory (Jax). aおよびbの箱ひげ図は、中央値(中央)、25/75パーセンタイル(下ひげ/上ひげ)、1.5×四分位範囲(ひげ)、外れ値(点)を示す。

フルサイズ画像
典型的なマウスマイクロバイオーム研究の文脈におけるuSGBsの関連性を検証するために、宿主の遺伝的背景やbendor65を問わず、高脂肪(HF)食と普通食の分類学的バイオマーカーを同定するための先行統計検定を再現した。MetaPhlAn 4の分類学的プロファイルに線形混合モデルを適用し、性別、年齢、遺伝的背景、業者をコントロールしたところ(Methodsを参照;補足表19)、FDR < 0.2で、関連する食事中の平均相対存在量が1%を超える18のSGBバイオマーカーが同定された(図4c)。高カロリー食の過剰なバイオマーカーのほとんどはuSGBであり(13個のuSGB、18個のバイオマーカーの72%)、MetaPhlAn 3を使って検出できた3つの分類群(Lachnospiraceae bacterium 28_4 SGB7272、 Lactobacillus johnsonii SGB7041、Faecalibaculum rodentium SGB4047)、およびあまり特徴的でない種を表す2つのkSGB(Lachnospiraceae bacterium SGB41544、Bacteroidales bacterium SGB27761)。メタゲノムプロファイリングのために環境特異的MAGカタログを利用する他のアプローチがすでに利用可能であるが67,68,69、MetaPhlAn 4のMAG(すなわちuSGB)のみによって定義される種を迅速かつ正確にプロファイリングする能力は、培養され配列決定された分類群が微生物多様性全体のごく一部であるような、十分に特性化されていない微生物環境に特に関連すると思われる。

腸内細菌叢、食事、代謝の強い関連性
我々は、MetaPhlAn 4を用いて、ZOE PREDICT 1研究22の1,001人の詳細な表現型を決定した個体から得られたメタゲノムを再解析することにより、腸内細菌叢、食事、宿主の代謝19,20,21,22,23,70の関連を拡張した。元の研究と同様に、マイクロバイオームと食事および心代謝系の宿主変数の両方との関連性の強さを、分類学的プロファイルで訓練したランダムフォレスト(RF)分類器および回帰器の予測力をテストすることによって評価した(方法を参照)。原著論文のMetaPhlAn 3によると、マイクロバイオームと最も強く関連する19の健康・食事マーカーのうち、MetaPhlAn 4の分類群を組み入れると、2つを除くすべての予測精度が向上した(新しいAUC中央値=0.74、4.84%の改善;図5a)。最も改善されたのは、10年アテローム性動脈硬化性心血管病(ASCVD)リスク(0.106高いAUC、16.24%の改善)であり、Healthy Eating Index(HEI)スコア71が最も強い関連性を示した(0.072高いAUC、10.05%の改善、31%の回帰改善)。

図5:MetaPhlAn 4は、ヒト腸内細菌叢の未知の部分と宿主の食事および心代謝マーカーとの間に強い関連があることを明らかにした。
図5
a, MetaPhlAn 3分類学的プロファイル22に基づくZOE PREDICT 1研究のオリジナル結果と比較して、MetaPhlAn 4マイクロバイオームプロファイル(n = 1,001サンプル)でトレーニングしたランダムフォレスト(RF)モデルは、栄養と心代謝の健康を代表する19のマーカーパネル(Methods参照)の分類(円および右側Y軸)および回帰(ボックスプロットおよび左側Y軸)の結果を大幅に改善した。ボックスプロットは、中央値(中央)、25/75パーセンタイル(下ヒゲ/上ヒゲ)、1.5×四分位範囲(ヒゲ)、外れ値(ポイント)を示す。 b, 食生活および代謝心疾患の健康マーカー陽性(上半分リスト)および陰性(下半分リスト)とそれぞれ最も強い全体的相関を示す20の未知の微生物種(uSGB)のパネル(∗FDR < 0.2)。

フルサイズ画像
マイクロバイオームと食事指標との関連は、uSGBを考慮することで特に改善された(図5a);以前は、内臓脂肪および血中脂質レベルは、MetaPhlAn 3プロファイルを用いた食事指標よりも一般的に強くマイクロバイオームと関連していた。このことは、各uSGBの存在量と19の宿主の食事、人体計測および生理学的指標すべてとの相関分析によって実証された。実際、最も強い相関関係(年齢、性別、BMIを考慮した後;図5b)は、ほとんどがuSGBsに関係しており(健康な状態と最も関連する10個のSGBsのうち6個がuSGBsであった)、最も高い(絶対的な)3つの相関関係はアルファプロテオバクテリアSGB4777に関係しており、代替地中海食(aMED72、ρ = 0.21)およびHEI(ρ = 0.19)スコアと正の相関関係があり、uPDI(ρ = -0.25)と負の相関関係があった。

さらに、ZOE PREDICT 1の再解析で新たに食事や生体指標と関連づけられたSGBを、より広範なヒト腸内データMetaPhlAn 4プロファイルで他の健康状態や疾患状態と関連づけられたSGBと比較した。ZOE PREDICT 1研究から選択された19の参照マーカーとの平均相関順位に基づいて、最も健康に関連する10個のuSGBの中で、Lachnospiraceae SGB4894が特に関連する分類群として浮上した。このuSGBは、現代のヒトのコホート(健康な個体で44.33%)および非ヒト霊長類(41.36%の有病率)の両方に広く存在していた。また、古代の便サンプルから得られたメタゲノム(補足図8a)の60%にも存在したことから、この分類群は健康なヒトのマイクロバイオームにおいて重要な、まだ解析されていないメンバーであることが示唆された。

11の異なるヒト疾患にまたがるデータセットにまたがる症例/対照研究におけるLachnospiraceae SGB4894の相対的な存在量を比較すると(方法を参照;補足表20)、ASCVD(P = 0.045)や肝硬変(P = 9.20×10-7)のような心代謝系の健康と直接関連する状態だけでなく、炎症性腸疾患(IBD;図6a)とも統計的に有意な関連を見出した。これには、クローン病(P = 2.50 × 10-28、4.67 × 10-6、0.0016)および潰瘍性大腸炎(P = 1.85×10-22、3.89×10-6、1.28×10-8)という主なIBDサブタイプの両方と、ラクノスピラ科SGB4894の存在量および有病率が高いという3つの異なるコホートにわたる関連が含まれる。これらの結果を総合すると、ヒトの腸のように比較的よく特性化された環境であっても、マイクロバイオームの未知の部分をプロファイリングすることの重要性が示された。

図6:StrainPhlAn 4は、未特性の微生物種の大規模な株レベルの系統樹を正確に再構築する。
図6
a,未特性種(uSGB)Lachnospiraceae SGB4894の相対存在量(ボックスプロットおよび上部Y軸)および有病率(バープロットおよび下部Y軸)は、いくつかの胃腸関連疾患に罹患している患者(n = 1,183サンプル)と比較して、健康な個人(n = 738サンプル)で大幅に高く、この差は集団間で再現可能である(片側Mann-Whitney U検定)。箱ひげ図は、中央値(中央)、25/75パーセンタイル(下ヒゲ/上ヒゲ)、1.5×四分位範囲(ヒゲ)、外れ値(点)を示す。 b, Lachnospiraceae SGB4894は、地理的起源や生活様式と強く関連した種内の遺伝的多様性を示す。c,異なる国の菌株間の一対の地理的距離は、それらの遺伝的距離の中央値と相関しており(スピアマンのρ = 0.505;方法参照)、ヒトのLachnospiraceae SGB4894株は距離による隔離パターンをたどった可能性が示唆される。

フルサイズ画像
StrainPhlAn 4はuSGBの大規模系統を再構築する
微生物の分類群を検出・定量するためにMetaPhlAnが利用するユニークなクレード特異的マーカー遺伝子は、StrainPhlAnアプローチ4,73を用いて、個々の菌株のサンプル特異的な遺伝子構成を再構築するためにも利用できる。MetaPhlAn 4はまた、StrainPhlAn 4をSGBに適用できるように拡張し、未特性種(uSGB)にも適用できるようにした。StrainPhlAn 4は、MetaPhlAn 4のマーカーに対するリードのマッピングを使用して、種ごとの優勢株のサンプルごとの遺伝子型を作成する(十分なカバレッジを持つすべてのSGBについて)。StrainPhlAn 3と比較して、マーカーとサンプルを選択し処理する手順を改良し、よりロバストで検証済みのデフォルトパラメーターセットと、より厳格なギャップトリミング戦略を採用しました。また、より系統学的に一貫性のあるSGB(SGBあたり平均189±34マーカー)の大規模なマーカーデータベースを利用しました。その結果、以前のバージョンと比較して、StrainPhlAn系統距離と、高品質のMAGを再構築できたサンプルの一部で構築したMAGベースの系統樹との相関が平均1.33%増加し、より正確な系統樹が得られた(MetaPhlAn 3種が一致する最も一般的な3つのkSGBについて100サンプルで評価;補足表21および補足図9a-f;Methodsを参照)。

uSGBsに対するStrainPhlAnプロファイリングの可能性を示すために、MetaPhlAn 4で使用した19.5 kの腸内メタゲノムサンプルと同じコレクションを利用して、上で紹介した健康に関連するLachnospiraceae SGB4894の探索を継続した(補足表12)。この解析では、MetaPhlAn 4がLachnospiraceae SGB4894を検出した5.8 kサンプル(霊長類以外の79種と古代のヒト12種の腸内メタゲノムを含む)をすべて組み込んだ(補足表22)。StrainPhlAn 4は、対象となるuSGBが株プロファイリングに十分なカバレッジを持つ1,683サンプル(少なくとも、20個のLachnospiraceae SGB4894マーカーが80%以上のカバレッジ幅で再構築されたサンプル)において、37個のSGB4894特異的マーカー遺伝子(非変数位置を除外するためにアラインメントをトリミングした後、19,449塩基位置に及ぶ)を保持し、宿主タイプ間のすべての株プロファイルを統合した系統樹を自動的に構築した。

その結果、Lachnospiraceae SGB4894は複数のサブクレードから構成されており、そのうちの1つは主に欧米化した個体群の菌株から構成され、他の2つは代わりに非欧米化個体群または中国系個体群の菌株が優勢で、後者はクレード内の多様性も高いことが示された(図6b)。また、約1300年前の古糞のサンプル74から復元された1株は、Lachnospiraceae SGB4894系統樹に統合され、主にヨーロッパと北アメリカの株からなるサブクレードの基底に位置づけられた(図6b)。

Lachnospiraceae SGB4894の系統樹は、宿主の地理的起源に関連した遺伝的構造をさらに示した(図6b)。実際、異なる国で採取された菌株のペアを考慮した場合、地理的距離と遺伝的距離の中央値との間に相関関係が見られた(スピアマンのP = 0.505)。これは、Helicobacter pylori76やEubacterium rectale55で以前に示されたように、距離による隔離効果75を仮定するために使用できる(図6c)。これに対応して、SGB4894株は非西欧化集団において集団内遺伝的変動性が高く(Mann-Whitney U検定、P < 2.22 × 10-46;補足図8b)、被験者内多型率も高かった(再構築されたマーカー中の対立遺伝子優性が80%以下の塩基の割合として算出、Mann-Whitney U検定、P = 8.6 × 10-14;補足図8c)。このように、StrainPhlAn 4は、栽培されていない、まだ名前がついていない種の系統復元と集団遺伝学を高い精度で容易に可能にした(方法;補足表21および補足図9g,hを参照)。

また、StrainPhlAn 4では、未同定種、すなわちuSGBsについて、コミュニティ4,25,28,73,77,78,79間の菌株共有と伝播の解析も可能である(Methods参照)。注目すべきは、StrainPhlAn 4は、Lachnospiraceae SGB4894株が両方の親族から確実に検出された21例すべてにおいて、母親とその1歳未満の乳児の間で共有されていないと推定したことである(補足図8d)。同様に、Lachnospiraceae SGB4894が陽性であった同一世帯の成人のうち、同じ株を共有していたのはわずか5.63%であり(補足図8d)、この種の安定した垂直・水平伝播はいずれもまれであることが示唆された。しかし、2頭の飼育下非ヒト霊長類がヒトと近縁のLachnospiraceae SGB4894株を共有している証拠を発見したことから、宿主種間での水平伝播を示す証拠もある(図6b)。全体として、この例は、MetaPhlAn 4とともにSGBを組み込むためにStrainPhlAn 4を拡張することで、十分に特性化された微生物種とまだ培養されていない微生物種の両方について、高度に分解された亜種の系統樹を解析できることを示している。

考察
MetaPhlAn 4は、メタゲノムアセンブリとリファレンスベースのプロファイリングアプローチを統合する戦略を提供し、多様で高品質なメタゲノムアセンブリを組み込むことで新規性を、事前にスクリーニングされたマーカー配列への洗練されたマッピングを用いることで感度と特異性を達成する。この戦略は、微生物の多様性をメタゲノム的にカタログ化する最近の大規模な取り組み37,38,39,40,41,42,43,44,45,46を活用したもので、100万を超える原核生物の配列を種レベルのゲノムビンに整理し、利用可能なデータベースの現在の偏りと比較してマイクロバイオームタイプの多様性を改善し、マーカーベースの戦略を使用して新しいメタゲノムに効率的にプロファイリングするために使用する。このアプローチにより、健康に関連するバイオマーカーの解像度が向上し、数十の異なる環境にまたがる何万ものショットガンメタゲノムにおいて、既知の分類群と未特性の分類群の両方について系統復元と集団遺伝学的推論が可能になった。

注目すべきは、拡張されたMetaPhlAn 4のSGBとマーカーセットを用いても、十分に特性化されていない生息環境をよりよくプロファイルするためのさらなる作業が残っていることである。環境、非宿主関連、その他の研究されていない微生物群集は、現在のuSGBでも捕捉されていない配列がまだ非常に豊富である。実際、我々は少なくとも年に2つの新しいMetaPhlAnデータベースをリリースし、プロファイリング可能な微生物の多様性を大幅に拡大する予定である。また、現在の手法では、ウイルスや真核微生物の配列を広範に取り込むことはできない。これは、細菌や古細菌ゲノムに比べ、それらのゲノム構造が独特であり、品質管理が必要なためである。興味深いことに、SGBは本質的に全ゲノムのOTUクラスター80を表しているため、関連する多くの下流の統計的課題も解決されていない。例えば、実在するが希少な分類群を同定するために品質管理手段を適用する際の感度と特異性のトレードオフなどである。現在のメタゲノム研究において関連性が高まっているもう一つの重要な側面は、特性化されていない生物種、特にuSGBの系統学的・分類学的コンテクスト化である。MetaPhlAn 4は、最も近い(もしあれば)参照ゲノムから信頼性をもって移植できる分類学の部分に対応する分類学的ラベルを提供するように設計されており、PhyloPhlAn81は系統学的特徴付けのための特定のワークフローを提供しているが、分離ゲノムのさらなる統合や、微生物ファミリーのレベル以上の分類学的クレードを定義するための新しい方法が依然として必要である。この方法は、bioBakeryプラットフォームの他のMAG対応アップデートの基礎にもなる4,82。

方法論
アプローチの概要
MetaPhlAn 4の分類学的プロファイリングは、ショットガンメタゲノムサンプル中の既知および未知の微生物分類群の相対的存在量を推定するために、種特異的マーカー遺伝子のコレクションの存在を検出し、カバレッジを推定することに依存している。バージョン4以降、MetaPhlAnは配列で定義された種レベルのゲノムビン(SGBs)42の概念に依存しており、手作業による分類学的割り当ての多くの限界に対処し、培養から入手可能な参照ゲノム(kSGBs)とメタゲノムでアセンブルされたゲノム(uSGBs)のみに基づいて定義された分類群の両方を分類学的単位に包含している。

SGB特異的マーカーのMetaPhlAnデータベースを構築するために、729,195の複製除去され、品質管理されたゲノム(560,084のMAGと169,111の参照ゲノム)のカタログを収集した。これにより、21,373のFGB、47,643の属レベルのゲノムビン(GGB)、70,927のSGBが定義され、そのうち23,737は少なくとも1つの参照ゲノムを含み(kSGB)、47,190はMAGのみを含む(uSGB)。SGBにアセンブリアーティファクトやキメラ配列が含まれる可能性を最小限にするため、少なくとも5つのMAGを持つuSGBのみを考慮した(kSGBについてはフィルタリングなし)。次に、UniRef90データベース58(下記参照)を用いてゲノムカタログをアノテーションし、各SGB内で、UniRef90遺伝子ファミリーに割り当てられなかった遺伝子を、UniClust90(参考文献59)の基準(同一性90%以上、クラスター重心のカバー率80%以上)を用いてde novoクラスタリングした。得られたUniRef-およびUniClust90アノテーションを用いて、品質管理された各SGBのコア遺伝子セット(SGBを構成するほぼ全てのゲノムに存在する遺伝子)を定義し、全ゲノムカタログに対して全てのコア遺伝子をマッピングした後、合計21,978個のkSGBおよび4,992個のuSGBに対して、5.1M個のSGB特異的マーカー遺伝子セット(他のSGBには存在しないコア遺伝子)を定義した。

SGBデータに基づくマーカーを利用した分類学的プロファイリングのステップでは、MetaPhlAn 4はBowtie 2 (ref.83)を用いてメタゲノムリード(品質管理済みであることが望ましい)をマーカーデータベースにマッピングする。これらのマッピング結果から、MetaPhlAnは各マーカーのカバレッジを推定し、同じクレードのマーカー間のカバレッジのロバスト平均としてクレードのカバレッジを計算する。最後に、クレードのカバー率を検出されたすべてのクレードで正規化し、各分類群の相対存在量を求める。MetaPhlAnパッケージには、StrainPhlAnによるSGBの系統レベルでの系統プロファイリングを含む、いくつかのダウンストリーム解析が含まれています。

リファレンスゲノムとMAGのスタートカタログ
Pasolliら42が収集した154,724個のヒトMAGと80,990個の参照ゲノムから出発して、ヒトの様々な身体部位、動物宿主および非宿主関連環境にまたがる616,805個のMAGの追加セット(補足表2)と、NCBI Genbankデータベース84で2020年11月現在利用可能な155,767個の新しい参照ゲノムを検索した。ダウンロードした配列の品質を保証するために、1,008,148ゲノム(つまり、参照配列とMAG)の完全なカタログに対してCheckMバージョン1.1.4(参考文献85)を実行し、完全性が50%未満または汚染が5%以上のものをフィルタリングした。同じ系統が複数含まれることを避けるため、品質管理された配列について全対全MASH距離54(バージョン2.0)を計算し、その後99,99%の遺伝的同一性でデリプリケーションを行った。この結果、560,084個のMAGと169,111個の参照ゲノムからなる729,195個の品質管理されたゲノムカタログが得られた。

拡張SGBカタログの構築
新しいゲノムカタログを用いて、Pasolliら42. まず、PhyloPhlAn 3(文献81)の'phylophlan_metagenomic'サブルーチンを493,482の新しいMAGと参照ゲノムに適用し、最も近いSGB、GGB、FGBとそのMASH距離を同定した。報告された距離に基づいて、Pasolliらによって定義された閾値(それぞれ5%、15%、30%の遺伝的距離)に従って、すでに存在するSGB、GGB、FGBにゲノムを割り当てた42。次に、既存のSGBに割り当てられていないゲノムの全対全MASH距離に対して、パイソンパッケージ'fastcluster'バージョン1.1.25を用いて、平均連鎖を用いた階層的クラスタリングを適用した。得られたデンドログラムを、遺伝的距離5%、15%、30%でカットオフして分割し、それぞれ54,596の新しいSGB、37,546の新しいGGB、18,211の新しいFGBを定義した。つまり、729,195のMAGと参照ゲノムをフィルターした最初のカタログから、21,373のFGB、47,643のGGB、70,927のSGBを定義し、そのうち23,737は少なくとも1つの参照ゲノムを含み(kSGB)、47,190はMAGのみを含む(uSGB;補足表1)。最新の最大規模のMAGコレクション43,45と比較すると、我々のゲノムカタログは5,092個多いkSGBと19,121個多いuSGBに及んでいる。

NCBI分類学データベース(2021年2月現在)49に従って、70,927個のSGBすべてに分類学的ラベルを割り当てた。kSGBについては、各SGBに含まれる参照ゲノムの分類学的ラベルに多数決を適用して分類学を割り当てた。同数の場合は、代表的な分類群(アルファベット順で最初のもの)を選択することで解決した。uSGBについては、同様の多数決ルールを適用したが、GGBレベルに含まれる参照ゲノムの分類学的ラベルに、属レベルまでの分類学的ラベルを割り当てた。GGBレベルに参照ゲノムが存在しない場合は、さらにFGBレベルで同様の手順を適用した。FGBレベルで参照ゲノムが見つからなかった場合は、最も近い参照ゲノムの分類学的ラベルの集合の中で最も再帰性の高い門を考慮し、最大で「phylophlan_metagenomic」で同定された最も近い参照ゲノムから5%ゲノム距離以内の100個の参照ゲノムを考慮して、門レベルまでの分類学的ラベルのみを割り当てた。また、「phylophlan_metagenomic」で同定された、最も近い参照ゲノムからゲノム距離5%以内にある最大100の参照ゲノムを対象とした。分類学的ラベルを受け取っていない分類学的レベルについては、すべてのレベルの分類学を維持し、uSGBの分類を提供するために、すべての内部分類学的ノードにSGB、GGB、FGB識別子を割り当てた。

ゲノムアノテーションとパンゲノムの作成
(1)FASTAファイルをProkka(バージョン1.14)86で処理し、コーディング配列(CDS)を検出・アノテーションし、(2)その後、DIAMONDベースのパイプライン(https://github.com/biobakery/uniref_annotator)を用いてCDSをUniRef90クラスター58に割り当てる。DIAMONDベースパイプラインは、UniRef90データベース(リリース2019_06)に対してタンパク質配列の配列検索(DIAMONDバージョン0.9.24)87を実行し、次にマッピング結果に対してUniRef90包含基準を適用して入力配列に注釈を付ける(90%以上の同一性とクラスター重心の80%以上のカバレッジ)。各SGB内で、どのUniRef90クラスタにも割り当てられなかったタンパク質配列は、MMseqs2(参考文献88)を使用して、Uniclust90基準('-c 0.80-min-seq-id 0.9'パラメータ)に従ってクラスタリングした59。

各SGBについて、UniRef90とUniClust90のアノテーションに基づき、SGBのゲノムの少なくとも1つに存在するUniRef/UniClust90クラスターをすべて集めてパンゲノムを作成した。各クラスターについて、全ゲノム内で代表的な配列をランダムに選択し、SGBの最高品質ゲノム2k個内のクラスター有病率に基づいてコアネス値を計算した。この制限を実施したのは、小さなuSGBの中には、アセンブリーアーティファクトやキメラゲノムが含まれている可能性が高く、また、後にあいまいであることが判明した潜在的なマーカーを省くことができず、偽陽性を生成する可能性が高いという証拠が見つかったからである。このステップでは、70,927個のSGBのうち41,498個のuSGBが廃棄され、理論的により信頼性の高い配列で表されるkSGBはすべて保持された。

MetaPhlAn 4 vJan21マーカーデータベース
これらのパンゲノムデータベースから、MetaPhlAn 4のマーカーデータベースを以下の2つのステップに分けて構築した:各SGB内のコア遺伝子の同定と、コア遺伝子のSGB特異性のスクリーニング。

コア遺伝子の同定では、まずSGBのパンゲノムに基づいてコアネスのパーセンテージ閾値(つまり、SGB内での遺伝子のパーセンテージ有病率)を定義する。具体的には、少なくとも800のコア遺伝子(長さは450から4,500ヌクレオチド)を検索できる最大コアネス閾値を選択した。最小コアネス閾値は、100ゲノム未満のSGBでは60%、それ以外では50%に設定した。各SGBについて、推定されたコアネス閾値を用いてコア遺伝子セットを作成した。平均して、SGBあたり2,985個のコア遺伝子を検索した(中央値, 2,687; s.d., 1,861)。コア遺伝子が200個未満のSGBは破棄され、それ以上は考慮されなかった(9SGB)。

SGB固有のマーカー遺伝子を検出するために、コア遺伝子の各セットをBowtie 2(バージョン2.3.5.1、-sensitiveパラメータ)を用いて他のSGBのゲノムに対してアライメントした83。各SGBについて、計算上の理由から、最高品質の100ゲノムまでからなるサブセットがマッピング用に選択された。各コア遺伝子は、メタゲノミックリードをシミュレートするために150nt長のフラグメントに分割され、SGBのゲノムの代表的なサブセットに対してマッピングされた。フラグメントのアラインメントヒットは、対応するコア遺伝子のヒットとみなされた。他のどのSGBのゲノムにもヒットせず(完全にユニークなマーカー)、または1%未満(準マーカー)であり、コアネス閾値以上のSGBのゲノムにヒットするコア遺伝子がマーカー遺伝子として選択された。重要なことは、この一意性の手続きは、元の種の分類学的割り当てと比較してSGBの一貫性が改善されたため、以前のMetaPhlAnのバージョンで使用されたものよりも大幅に厳しくなったことである。

100未満のマーカー遺伝子を生成するSGBのごく一部(810 SGB)は、以下のワークフローに従った:

ターゲットSGBの200以上のコア遺伝子が外部SGB(同じ種に属するkSGB、またはuSGB)と一致し、外部SGBがターゲットSGBのゲノムの10%未満であった場合、外部SGBは廃棄された(これは392のkSGBと150のuSGBで発生した)。このステップは、ターゲットSGBが100マーカー遺伝子を生成するか、評価できる外部SGBがなくなるまで、外部SGBが削除されるたびに繰り返された。後者の場合、外部SGBの削除はロールバックされた。

ターゲットSGBがまだ10個のマーカー遺伝子を同定できない場合、低品質な種の分類学的ラベルを持つ外部SGBは廃棄された(これは822個のkSGBと286個のuSGBで発生した)。具体的には、低品質な種分類学的ラベルを検出するために使用した正規表現は以下の通りである。

'(C|c)andidat(e|us) | sp(.|$) | (.|^)(b|B)acterium(.|) |.(eury|)archaeo(n_|te|n$).* |.(endo|)symbiont. |. (シアノ|プロテオ|アクチノ)バクテリア.). このステップは、ターゲットSGBが10個のマーカー遺伝子を生成するか、評価可能な外部SGBがなくなるまで、外部SGBが削除されるたびに繰り返された。後者の場合、外部SGBの削除はロールバックされた。

それでも少なくとも10個のマーカー遺伝子を生成しなかったSGBについて、200個以上のコア遺伝子がコンフリクトしている外部SGBに対するすべてのコア遺伝子ヒットを集めたコンフリクトグラフを作成した。次に、このグラフは、マージされたSGBの数を最小化し、検索されたマーカーの数を最大化する手順でSGBをマージすることによって処理された。このプロセスの後、849のSGBがマージされ、237のSGBグループが生成された。

最後に、各SGBについて、まずその一意性に基づき、次にその大きさ(長い方が先)に基づいて、最大200個のマーカー遺伝子を選択した。それでもマーカーが10個未満のSGBは破棄された(188個のSGB)。各マーカーはMetaPhlAn 4 vJan21データベースのエントリーに関連付けられ、配列がマーカーであるSGB、マーカーを共有するSGBのリスト、配列長、SGBの分類学が含まれる。これにより、21,978個のkSGBと4,992個のuSGB(4,863個のkSGBと1,198個のuSGBは最新の最大ゲノムカタログ43,45ではまだ捕捉されていない)の合計510万個のマーカー遺伝子のリストが作成された。

MetaPhlAn 4分類学的プロファイリング
MetaPhlAn 4の分類学的プロファイリングは、SGB特異的マーカーに対するリードの相同性とカバレッジに基づいて、メタゲノミックサンプルに存在する分類群の相対的な存在量を推定する。MetaPhlAnパイプラインは、メタゲノミックサンプルの生リードをBowtie 2 (ref.83)を用いてSGB特異的マーカーのデータベースにマッピングすることから始まる。入力メタゲノミックリードは、単一のFASTQファイル(複数のアルゴリズムで圧縮)、単一の(圧縮)アーカイブに含まれる複数のFASTQファイル、または事前に実行されたマッピング(bowtie2out形式)として提供することができます。デフォルトでは、Bowtie 2マッピングは'--very-sensitive'プリセットを使用して実行されます。リードマッピングの品質を保つため、短いリード(70bpより短いリード;'--read_min_len'パラメータ)と低品質アラインメント(MAPQ値が5より低いアラインメント;'-min_mapq_val'パラメータ)は破棄される。

品質管理されたマッピング結果を用いて、MetaPhlAnは各マーカーのカバレッジを推定し、同じクレードのマーカー全体のカバレッジのロバスト平均としてクレードのカバレッジを計算するが、マーカー存在量の上下分位は除外する('--stat_q'パラメーター)。SGBプロファイリングでは、このパラメータはデフォルトで0.2に設定されているため、存在量の最も多いマーカーの20%と最も少ないマーカーの20%は除外される。準マーカーのカバレッジは、それぞれの外部SGBのマーカーの少なくとも33%(デフォルト値、'--perc_nonzero'パラメーター)が存在する場合、この計算から考慮されない。クレードのカバー率は最終的に検出されたすべてのクレードで正規化され、(refs. 2,3)に記載されているように各分類群の相対存在量が求められる。

MetaPhlAn 4とGTDB分類法の互換性
MetaPhlAn 4は、他のシステムとのゲノムおよびMAGマッチングにより、追加の分類法をサポートしています。我々は特に、MetaPhlAn 4のSGBベースの分類学的プロファイルとGTDB63の種に基づく分類学的プロファイルのマッピングを実装した。これはバージョン4のリリースに含まれるユーティリティスクリプト 'sgb_to_gtdb_profile.py'を介して利用可能である。各SGBをGTDBの種に割り当てるために、GTDB-Tk分類学的分類ツール(バージョン2.1.1)89を使用して、MetaPhlAn 4データベースに含まれる26,970のSGBの各セントロイドゲノムにGTDB定義の種(リリース207)を割り当てた。

MetaPhlAn 4の未分類リードの計算
MetaPhlAn 4には、データベース内の分類群に割り当てられない入力リードの割合を推定する機能がある('--unclassified_estimation'パラメータ)。これは、入力リードの総数から、報告された各SGBの平均リード深度をSGB固有の平均ゲノム長で正規化した値を差し引くことで、以下のように計算されます:

$$\begin{array}{l}% {\mathrm{uncl.}\mathrm{reads}} =\ \frac{{{\mathrm{Total},\mathrm{reads}} - left( {{mathop {sum}}} {{nolimits_{{mathrm{sp}} = 0}^{n}}}. {\left( {{\mathrm{avg},\mathrm{non} \右)}. } \right) /{\mathrm{avg},\mathrm{read},\mathrm{length}}}}{{{\mathrm{Total},\mathrm{reads}}}}\end{array}$$
$${mathrm{sp} = ¦SGBs} ¦SGBs} ¦SGBs} ¦SGBs ¦SGBs ¦SGBs ¦SGBs ¦SGBs ¦SGBs ¦SGBs ¦SGBs ¦SGBs ¦SGBs ¦SGBs ¦SGBs ¦SGBs
SGBの平均リード深度は、検出された(0でない)マーカー遺伝子全ての平均リード深度として計算される。kSGBのSGB固有のゲノム長は、その参照ゲノムのゲノム長のみを用いて計算され、uSGBの平均ゲノム長は7%インクリメントされる(同じSGB内の参照ゲノムとMAGのゲノムサイズの平均差として計算される)。

MetaPhlAn 4 生命樹の構築
MetaPhlAn 4パッケージには、MetaPhlAnデータベースで利用可能なすべてのSGBの系統樹(「微生物の生命樹」;補足図10)が含まれており、UniFrac90(補足図4)のようなサンプル間の系統樹に基づくベータ多様性推定値の計算と、SGB間の系統関係のさらなる探索の両方が可能です。ツリーを構築するために、26,970のSGBそれぞれについて、CheckMに基づいて最も質の高いゲノムを選択した。次に、PhyloPhlAn 3 (ref. 81)を、(ref. 81)に記載されているように、非常に大きな系統のために最適化されたパラメータセットで実行した。特に、PhyloPhlAnは400個のPhyloPhlAnのユニバーサルマーカーデータベースに対してDIAMOND87マッピング(バージョン0.9.24)を行い、トリミングにはTrimAlバージョン1.4.rev15(文献91)、多重配列アライメントの生成にはMAFFTバージョン7.475(文献92)、系統再構築にはIQ-TREEバージョン2.0.3(文献93)を、PhyloPhlAnのプリセット「-diversity high-fast」とともに使用した。

MetaPhlAn 4の合成評価
MetaPhlAn 4を、様々な公開メタゲノムと新しく作成した合成メタゲノムを用いて評価した。まず、MetaPhlAn 3(文献4)、mOTUs 2.6(2021年3月時点の最新データベース)6、Bracken 2.5(文献5)と比較し、MetaPhlAn 4の性能を評価した。OPALベンチマークフレームワーク61を通じて、CAMI 2分類学的プロファイリングチャレンジメタゲノム60とSynPhlAn-非ヒト合成メタゲノム4をプロファイリングし、各ツールの性能を評価した。CAMI 2メタゲノムには、ヒトの5つの部位特異的マイクロバイオーム(すなわち、気道、口腔、消化管、皮膚、泌尿生殖管)、海洋環境、およびマウスの腸内マイクロバイオームを表す128のサンプルが含まれている、 一方、SynPhlAn-non-humanメタゲノムは、CAMI 2メタゲノムのシーケンス深度とコミュニティ構造(つまり、対数正規分布のkSGBのゲノムから得られた3000万、150ntペアエンドシーケンスリード)を反映するように設計されているが、ヒトの体とは異なる環境を対象としている。

各ツールはデフォルトのパラメータで実行した。mOTUs 2.6については、2つの異なる設定を考慮し、精度と再現率をそれぞれ最適化するために、パラメータ'-C recall'と'-C precision'で2回実行した。両パラメータは、CAMI 2チャレンジのために開発者が作成したmOTUs 2のプリセット設定である。Bracken 2.5 の結果は、0.01%以下の相対存在量で報告された種を除外してフィルターにかけた。さらに、SGBアーキテクチャをより良く評価するために、合成メタゲノムに含まれるゲノムの検出と定量を評価する代替評価を行いました。この目的のため、(1)「真陽性」を合成メタゲノムに存在するゲノムを含むSGBの検出、(2)「偽陽性」をメタゲノムに存在するゲノムを含まないSGBの検出、(3)「偽陰性」を合成メタゲノムに存在するゲノムを含むSGBの非検出と定義した。また、群集中に重複して存在するSGBを検出した場合は「真陽性」とした。ゴールドスタンダードについては、同じSGBに属するゲノムの相対量を合計して相対量を求めた。種群を記述するマーカーを含むMetaPhlAn 3については、(1)合成メタゲノムに存在する種を含む種群を「真陽性」とし、(2)合成メタゲノムに存在する種を含まない種群を「偽陽性」とした。

CAMI 2およびSynPhlAnからの合成サンプルを補完する既知および未知のSGBの両方をプロファイリングするMetaPhlAn 4の性能をさらに評価するために、イルミナHiSeq 2500エラーモデル(http://segatalab.cibio.unitn.it/tools/metaphlan/)でART94を使用して、異なる環境、宿主および人体部位から追加の合成メタゲノムを構築した。各環境について、その環境由来のMAGを含むSGBからランダムに選択したゲノム(SGBあたり1ゲノムという制限付き)を用いて、対数正規存在量分布に従い、3000万、150ntペアエンドシーケンスリードを含む5つのメタゲノムについてシミュレーションを行った。MetaPhlAn 4の評価は、上記のように合成メタゲノムに含まれるゲノムの検出と定量を評価することによって行われた。さらに、ゲノムカタログに含まれるゲノムの使用量によって評価が偏らないことを実証するために、ゲノムデータベースに含まれない新しいMAGと参照ゲノムを混合して、同じ手順で別の5つのメタゲノムを構築した。新しいゲノムのSGB割り当ては、PhyloPhlAn 3(文献81)の'phylophlan_metagenomic'サブルーチンを用いて、Jan21データベースに対して行った。

最後に、MetaPhlAn 4が確信を持って種を割り当てることができる最小相対存在量を評価するために、ゲノムデータベースに含まれていない混合ゲノムから5つの参照ゲノムと5つのMAGをランダムに選択し、イルミナHiSeq 2,500エラーモデル(http://segatalab.cibio.unitn.it/tools/metaphlan/)でART94を使用して、異なるカバレッジ深度で単離合成メタゲノムをシミュレートした。各ゲノムについて、0.01×、0.05×、0.1×、0.5×、1×、5×、10×、50×、100×カバレッジのリードを生成した。

MetaPhlAn 4のヒトおよび非ヒトメタゲノムへの応用
MetaPhlAn 3と比較して、分類されたリードの割合がどの程度増加したかを測定するために、MetaPhlAn 3(バージョン3.0.12)とMetaPhlAn 4(バージョン3.0.12)を用いて、ヒト(気道、消化管、口腔、皮膚、泌尿生殖器)、動物(霊長類、マウス、反芻動物)、その他の非ホスト関連環境(土壌、淡水、海洋)にまたがる145のデータセットから24,515サンプルをプロファイリングした(Supplement Table 11)。 0.12)とMetaPhlAn 4(Ver. )を用いて、未知/未分類の推定を行った(補足表23)。両方のツールで少なくとも1種が報告されたサンプルのみを用いて改善を報告した。SGBは、その環境からのサンプルの少なくとも1%で検出された場合、特定の環境に存在すると報告された。最後に、異なる年齢カテゴリーとライフスタイルにおける腸関連SGBの存在量と有病率を調査するため、年齢情報が入手可能な86のデータセットから、ヒト腸メタゲノム19,468個のサブセットを選択し(補足表15)、curatedMetagenomicData95 3パッケージで報告およびキュレーションした。

西洋化の定義
過去200年間の工業化と都市化がもたらした西洋化の過程は、ヒト集団に大きな影響を与えた。これらの変化には、医薬品や医療へのアクセス、衛生環境の改善、都市居住の増加、家畜への暴露の減少、習慣的な食生活の変化(西洋化した食生活は、脂肪や動物性タンパク質の増加、高塩分、単純炭水化物で構成される傾向がある)などが含まれる。本研究では、主要な出版物に記載されている区別、または上記の基準に基づく評価に基づいて、西洋化した個体または集団を西洋化しなかった個体または集団と分類する。

マウスマイクロバイオームにおける食餌関連分類群の解析
181匹のマウス腸内細菌叢の公開コホート65において、HF食と普通食の存在量の差異解析を行った。元のコホートから、年齢情報が欠落している10サンプルを除外し、両方のタイプの食事について検査した遺伝的背景からサンプルのみを選択した。合計で、43匹のHF飼育マウスと88匹の正常対照食飼育マウスを解析し、さらに2つの遺伝的背景と5つの業者に層別化した(補足表17)。データの構成比を補正するために、まずデータセットで見つかった存在量の最小値でゼロ値をインプットし、次にSGBの相対存在量分布に中心対数比変換を適用した('scikit-bio' Pythonパッケージ、バージョン0.5.6)。次に、各特徴(SGB)について、'statsmodels' Pythonパッケージバージョン0.11.1を用いてランダム切片モデルを構築した。マウスの性、日齢、遺伝的背景を固定効果として、ベンダーをグルーピング変数として、系統の変換された存在量に食餌(HFまたはchow、バイナリー因子としてエンコード)を関連付けた。有意性はWald検定で決定した。P値はBenjamini-Hochbergに従って補正した('statsmodels' Pythonパッケージ、Q < 0.2)。プロットする前に、関連するグループの平均存在量が1%以上のバイオマーカーを選択した。報告されたヒートマップは、'pheatmap' Rパッケージバージョン1.0.12(パラメータ 'clustering_distance_cols = 'euclidean', clustering_method = 'complete', cluster_rows = FALSE')を使用して印刷されました。

ZOE PREDICT 1介入研究の再解析
ZOE PREDICT 1介入研究22から回収した英国の1,001人の深く表現型決定された個人を用いて、マイクロバイオームと心代謝系の健康および食事パターンとの関連を評価した。機械学習(ML)解析は、「scikit-learn」Pythonパッケージ(バージョン0.22.2)を用いて、オリジナルの研究22に記載されている19の代表的な栄養および心代謝マーカーのパネルに対して行った。クロスバリデーションのアプローチは、トレーニングセットとテストセットを80/20にランダムに分割し、100回のブートストラップ反復を繰り返して実施された。ZOE PREDICT 1コホートには双子が含まれているため,オーバーフィッティングを避けるために,訓練セットからの双子は,その双子のペアがテストセットに存在する場合は取り除かれた.MLモデルは、MetaPhlAn 4によって推定されたSGBsレベルの分類学的相対存在量を用いたRFに基づいており、相対存在量の値はアークシン平方根変換された。

RF分類タスクでは、連続的な特徴を上位四分位と下位四分位の2つのクラスに分けた。RandomForestClassifier'関数を、パラメータ'n_estimators=1000, max_features='sqrt''で使用した。RF 回帰タスクでは, RandomForestRegressor 関数が,パラメータ 'n_estimators=1000, criterion='mse', max_features = 'sqrt''で使用された.線形回帰器('LinearRegression'関数、デフォルトパラメータ)も、RF回帰器モデルによって予測される出力値の範囲を較正するために、訓練目標値で訓練された。少なくとも20%の有病率(1001サンプル中少なくとも200サンプル)を持つuSGBの相対的存在量と、19の栄養マーカーおよび心代謝マーカーのパネルとの間の一対のスピアマンの相関を計算し、年齢、性別、肥満度を補正した。相関は「ppcor」Rパッケージバージョン1.1を用いて計算し(補足表24)、P値はBenjamini-Hochberg手順で補正した。

Lachnospiraceae SGB4894と健康状態との関連
Lachnospiraceae SGB4894と宿主の健康状態との関連をいくつかの疾患にわたって調べるために、curatedMetagenomicData95を通じて入手可能な21の疾患症例対照データセットを収集した(補足表20)。各データセットについて、「scipy」Pythonパッケージバージョン1.5.2の「stats.mannwhitneyu」関数を用いて、arcsin平方根変換した相対存在量プロファイルについて片側Mann-Whitney U検定を計算することにより、Lachnospiraceae SGB4894と健常対照として報告された対象との関連を評価した。西洋化された成人のサンプルを使用し、少なくとも10個の健常サンプルと10個の疾患サンプルが利用可能な場合にのみ比較を行った。統計的に有意な関連は、P < 0.05で定義された。

StrainPhlAn 4 プロファイリング
StrainPhlAnプロファイリングは、菌株レベルの種特異的系統を推定するもので、MetaPhlAn種特異的マーカー遺伝子のサンプル特異的コンセンサス配列の再構築と、それに続く複数配列アラインメントおよび系統推定に基づいている4,73。StrainPhlAn 3と比較して、StrainPhlAn 4の精度と性能が向上した主な理由は、(1)系統樹で考慮するマーカーとサンプルを選択・処理する手順が再設計されたこと、(2)系統樹的に一致するSGBの広範なセットから、同じMetaPhlAn 4のマーカーデータベースを使用したことである。

(1)については、StrainPhlAn 4は、MetaPhlAn 4プロファイリングから得られたreads-to-markersアライメント結果(SAMフォーマット96)とMetaPhlAn 4データベースを入力とします。各サンプルについて、StrainPhlAn 4は、各位置について、それに対してマッピングされたリードの中で最も頻度の高いヌクレオチドを考慮することにより、種特異的マーカー遺伝子のコンセンサス配列を再構築する。デフォルトでは、8リード未満でカバーされたコンセンサスマーカー、またはカバー率が80%未満のマーカーは破棄される(つまり、リードでカバーされたマーカーの割合、'-breadth_threshold'パラメーター)。このステップでは、あいまいな塩基(つまり、アラインメントの品質が30以下の位置、またはメジャーアレルの優位性が80%以下の位置)は、マッピングされていない位置とみなされる。マーカーの再構成後、StrainPhlAnは利用可能なマーカーが80%未満のサンプルと、80%未満のサンプルに存在するマーカーを破棄する(それぞれ'-sample_with_n_markers'パラメーターと'-marker_in_n_samples'パラメーター)。次に、先頭と末尾の50塩基を削除してマーカーをトリミングし('-trim_sequences'パラメータ)、多型率レポートを作成する。最後に残りのサンプルとマーカーをPhyloPhlAn81で処理する。デフォルトでは、MAFFT92によって多重配列アライメントが行われ、trimAl91によってギャップのある位置(67%以上のギャップがある位置)がトリミングされ、RAxML97によって系統樹が推定される。

Lachnospiraceae SGB4894株レベルの解析
Lachnospiraceae SGB4894株レベルの解析では、MetaPhlAn 4によってLachnospiraceae SGB4894の存在が報告された86のデータセットから、ヒト腸内メタゲノムサンプル5,883件を選択した(補足表15)。また、霊長類以外の動物(NHP)79検体および古代のヒト腸内メタゲノミックサンプル12検体も12種類のデータセットから抽出した(補足表22)。SGB4894特異的マーカー遺伝子は、2,787個のメタゲノムから再構成に成功し、そのうち2,738個は現代のヒト腸内細菌叢サンプルから、5個は古代の腸内細菌叢サンプルから、44個はNHP腸内細菌叢サンプルから得られたものであった。StrainPhlAn 4による菌株レベルのプロファイリングは、パラメータ「-marker_in_n_samples 70 -sample_with_n_markers 10 --phylophlan_mode accurate」を用いて行った。StrainPhlAnで生成した系統樹をGraPhlAn version 1.1.4 (ref. 98)でプロットした。系統樹のサンプル間の距離に基づいて系統樹距離を抽出し、樹の全枝長で正規化した。国間の地理的距離は、Rパッケージ'geosphere'バージョン1.5-10の'distGeo'関数を用いて計算した。遺伝的距離と地理的距離の間のスピアマンの相関は、Rパッケージ'stats'バージョン4.0.5の'cor.test'関数を使って計算した。最後に、Lachnospiraceae SGB4894の伝播性を評価するために、系統樹(デフォルトパラメータ)を入力としてStrainPhlAnの'strain_transmission.py'スクリプトを実行した。このスクリプトはStrainPhlAnリリースの一部であり、縦断的サンプリングで利用可能なデータセットで事前に計算された正規化系統距離の種特異的カットオフを使用することができます。

StrainPhlAn 4の評価
MetaPhlAn 3データベースで種が利用可能であった最も一般的な3つの単一種kSGB、すなわちB. wexlerae (SGB4837), B. uniformis (SGB1836) およびE. rectale (SGB4933) が、StrainPhlAn 4に含まれる改良点を旧バージョンと比較して評価するために選択されました。ゴールドスタンダードとして、各生物種について、ゲノムカタログからランダムに選択した100個の高品質なMAGを考慮し(補足表25)、Roaryコア遺伝子アライメントとRAxMLツリー再構築を介してMAGを処理して系統樹を得た。具体的には、Roaryバージョン3.13.0(文献99)を用い、パラメータ'-cd 90 -i 90 -e -mafft'でコア遺伝子(ゲノムの少なくとも90%に存在)の各セットから多重配列アラインメントを計算し、RAxMLバージョン8.2.4(文献97)を用い、パラメータ'-f a -# 100 -p 12345 -x 12345 -m GTRGAMMA'で起動した。検討したMAGがアセンブルされたメタゲノミックサンプルを用いて、StrainPhlAn 3と4をそれぞれのデータベースを使用し、デフォルトパラメータと'-mutation_rates'で実行した。さらに、uSGB Lachnospiraceae SGB4894について、ゲノムカタログの170のMAGと一般に入手可能なメタゲノミックサンプルを用いて、同様の評価(ただし、StrainPhlAn 3コールでMetaPhlAn 4データベースを使用)を実行した。PyPhlAnパッケージ(https://github.com/SegataLab/pyphlan)を用いて、全枝長で正規化した一対の系統距離を計算した。StrainPhlAnとゴールドスタンダードの結果との間のピアソン相関は、Pythonパッケージバージョン1.5.2の'scipy'の'stats.pearsonr'関数を用いて計算した。

報告概要
研究デザインに関する詳細は、この論文にリンクされているNature Portfolio Reporting Summaryを参照されたい。

データの利用可能性
本研究で解析したすべてのメタゲノム研究は、補足表11に記載した対応する出版物を通じて一般に公開されている。すべての参照ゲノムおよび分類学的データはNCBI GenBankデータベース(https://www.ncbi.nlm.nih.gov/genbank/)を通して一般に公開されている。GTDBリリース207はhttps://gtdb.ecogenomic.org/。CAMI 2 Challengeの合成メタゲノムとゴールドスタンダードはhttps://www.microbiome-cosi.org/cami/cami/cami2。SynPhlAn-non-human合成メタゲノムとゴールドスタンダードはhttp://segatalab.cibio.unitn.it/tools/biobakery。kSGBsとuSGBsを含む新しい合成メタゲノムとゴールドスタンダード、およびシングルアイソレート合成メタゲノムは、http://segatalab.cibio.unitn.it/tools/metaphlan/。環境、年齢カテゴリー、ライフスタイルにまたがるSGBの有病率は、補足表13と14に掲載されている。一般に解析されたヒトメタゲノムのメタデータは、curatedMetagenomicData Rパッケージ95からも入手できる。Lachnospiraceae SGB4894の株レベルの解析に使用したメタゲノム研究の全リストは、補足表15と22に報告されている。

コードの利用可能性
この研究で説明したMetaPhlAn 4のバージョンはMetaPhlAn 4.beta.1と表示され、StrainPhlAn 4とともにhttps://github.com/biobakery/MetaPhlAn(参考文献100)のオープンソースコードとともにhttp://segatalab.cibio.unitn.it/tools/metaphlan。また、Bioconda https://anaconda.org/bioconda/metaphlan(参考文献101)およびPIP https://pypi.org/project/MetaPhlAn。

参考文献
Quince, C., Walker, A. W., Simpson, J. T., Loman, N. J. & Segata, N. Shotgun metagenomics, from sampling to analysis. Nat. Biotechnol. 35, 833-844 (2017).

論文

CAS

PubMed

Google Scholar

ユニークなクレード特異的マーカー遺伝子を用いたメタゲノム微生物群集プロファイリング。Nat. Methods 9, 811-814 (2012).

論文

論文

PubMed

パブメッドセントラル

Google Scholar

Truong, D. T. et al. メタゲノム分類学的プロファイリングを強化するMetaPhlAn2。Nat. Methods 12, 902-903 (2015).

論文

論文

PubMed

Google Scholar

Beghini, F. et al. bioBakery 3を用いた多様な微生物群集の分類学的、機能的、株レベルのプロファイリングの統合。

論文

論文

パブコメ

パブメドセントラル

Google Scholar

メタゲノミクスデータにおける生物種の存在量の推定。PeerJ Comput. Sci. 3, e104 (2017).

論文

グーグル・スカラー

Milanese, A. et al. mOTUs2による微生物の存在量、活性、集団ゲノムプロファイリング。Nat. Commun. 10, 1014 (2019).

論文

PubMed

パブメドセントラル

Google Scholar

Franzosa, E. A. et al. メタゲノムとメタトランスクリプトームの種レベルの機能プロファイリング。Nat. Methods 15, 962-968 (2018).

論文

論文

PubMed

パブメドセントラル

Google Scholar

Nazeen、S., Yu, Y. W. & Berger, B. Carnelianは、全メタゲノムシーケンスリードから、多様な研究集団にわたる隠れた機能パターンを発見した。Genome Biol.

論文

PubMed

パブメドセントラル

Google Scholar

メタゲノムアセンブリのためのショートリードの新しいアプローチ。Brief Bioinform. 21, 584-594 (2020).

論文

論文

パブコメ

Google Scholar

肝硬変におけるヒト腸内細菌叢の変化。Nature 513, 59-64 (2014).

論文

CAS

PubMed

Google Scholar

Tett, A. et al. 乾癬に関連する皮膚マイクロバイオームの未解明な多様性と菌株レベルの構造。NPJ Biofilms Microbiomes 3, 14 (2017).

論文

PubMed

パブメドセントラル

Google Scholar

動脈硬化性心血管病における腸内細菌叢。Nat. Commun. 8, 845 (2017).

論文

PubMed

パブメッドセントラル

Google Scholar

炎症性腸疾患腸内細菌叢におけるメタ転写のダイナミクス。Nat. Microbiol. 3, 337-346 (2018).

論文

論文

PubMed

パブメドセントラル

Google Scholar

ベーチェット病における腸内細菌叢のメタゲノム研究。Microbiome 6, 135 (2018).

論文

PubMed

パブメドセントラル

Google Scholar

Zhou, W. et al. 糖尿病前症における宿主-微生物動態の縦断的マルチオミクス。Nature 569, 663-671 (2019).

論文

CAS

PubMed

パブメドセントラル

Google Scholar

Thomas, A. M. et al.大腸がんデータセットのメタゲノム解析により、クロスコホート微生物診断シグネチャーとコリン分解との関連が明らかになった。Nat. Med. 25, 667-678 (2019).

論文

CAS

PubMed

パブメドセントラル

Google Scholar

Ghensi, P. et al. ストレイン分解メタゲノミクスにより同定された歯科インプラント疾患の強い口腔プラークマイクロバイオームシグネチャー。NPJ Biofilms Microbiomes 6, 47 (2020).

論文

論文

PubMed

パブメドセントラル

Google Scholar

Zhu, F. et al.統合失調症における腸内細菌叢の特徴のメタゲノムワイドな関連性。Nat. Commun. 11, 1612 (2020).

論文

PubMed

パブメッドセントラル

Google Scholar

Claesson, M. J. et al. 高齢者における腸内細菌叢組成と食事および健康との相関。Nature 488, 178-184 (2012).

論文

CAS

PubMed

Google Scholar

食事はヒトの腸内細菌叢を迅速かつ再現性よく変化させる。Nature 505, 559-563 (2014).

論文

CAS

PubMed

Google Scholar

低グルテン食は健康なデンマーク人成人の腸内細菌叢に変化をもたらす。Nat. Commun. 9, 4630 (2018).

論文

PubMed

パブメドセントラル

Google Scholar

Asnicar, F. et al. 1,098人の深く表現型決定された個体から得られた宿主の代謝および習慣的食事とマイクロバイオームとの関連。Nat. Med. 27, 321-332 (2021).

論文

論文

パブコメ

パブメドセントラル

Google Scholar

Wang, D. D. et al. 腸内細菌叢は、地中海食と心代謝疾患リスクとの間の保護的関連を調節する。Nat. Med. 27, 333-343 (2021).

論文

論文

パブコメ

パブメドセントラル

Google Scholar

Asnicar, F. et al. ストレインレベルのメタゲノムプロファイリングによる母親から乳児への垂直的マイクロバイオーム伝播の研究。

論文

PubMed

PubMed Central

Google Scholar

Ferretti, P. et al. 異なる身体部位からの母親から乳児への微生物伝播は、発達中の乳児腸内マイクロバイオームを形成する。Cell Host Microbe 24, 133-145 (2018).

論文

CAS

PubMed

パブメドセントラル

Google Scholar

Yassour, M. et al. 生後数カ月間の母子間細菌伝播の菌株レベル解析。Cell Host Microbe 24, 146-154 (2018).

論文

CAS

PubMed

パブメドセントラル

Google Scholar

Brito、I. L. et al. 家族や社会的ネットワークに沿ったヒト関連微生物叢の伝播。Nat. Microbiol. 4, 964-971 (2019).

論文

CAS

PubMed

パブメドセントラル

Google Scholar

Ianiro, G. et al. 転移性腎細胞癌患者におけるチロシンキナーゼ阻害剤による下痢症の治療に対する糞便微生物叢移植。Nat. Commun. 11, 4333 (2020).

論文

PubMed

パブメッドセントラル

Google Scholar

ヒト腸内細菌叢の長期的な遺伝的安定性と個体特異性。Cell 184, 2302-2315 (2021).

論文

論文

PubMed

Google Scholar

マイクロバイオーム研究における未知の複数のレベル。BMC Biol.

論文

PubMed

パブメドセントラル

グーグル奨学生

Li, D., Liu, C.-M., Luo, R., Sadakane, K. & Lam, T.-W. MEGAHIT: 簡潔なde Bruijnグラフによる大規模かつ複雑なメタゲノム解析のための超高速シングルノードソリューション。Bioinformatics 31, 1674-1676 (2015).

論文

論文

PubMed

Google Scholar

メタゲノム解析のためのアセンブラとして、Nurk, S., Meleshko, D., Korobeynikov, A. & Pevzner, P. A. metaSPAdes: a new versatile metagenomic assembler. Genome Res. 27, 824-834 (2017).

論文

論文

PubMed

PubMedセントラル

Google Scholar

Kang, D. D. et al. MetaBAT 2: an adaptive binning algorithm for robust and efficient genome reconstruction from metagenome assemblies. PeerJ 7, e7359 (2019).

論文

PubMed

パブメドセントラル

Google Scholar

Wu, Y.-W., Simmons, B. A. & Singer, S. W. MaxBin 2.0: 複数のメタゲノムデータセットからゲノムを復元する自動ビニングアルゴリズム。Bioinformatics 32, 605-607 (2016).

論文

論文

PubMed

Google Scholar

Nissen,J.N.ら. 深い変分オートエンコーダを用いたメタゲノム分類とアセンブリの改善. Nat. Biotechnol. https://doi.org/10.1038/s41587-020-00777-4 (2021).

原核生物ゲノムの宿主関連ショートリードショットガンメタゲノムシーケンスデータからの復元。Nat. Protoc. 16, 2520-2541 (2021).

論文

論文

パブコメ

Google Scholar

地球上の海洋に存在するメタゲノム2,631種のゲノムを再構築した。Sci. Data 5, 170203 (2018).

論文

CAS

PubMed

パブメドセントラル

Google Scholar

Manara, S. et al. 非ヒト霊長類の腸内メタゲノムから得られた微生物ゲノムは、1000種以上の新規種で霊長類関連細菌の生命樹を拡大した。Genome Biol.20, 299 (2019).

論文

CAS

PubMed

パブメドセントラル

Google Scholar

ルーメンメタゲノム4,941個からなるゲノムの大要。Nat. Biotechnol. 37, 953-961 (2019).

論文

CAS

PubMed

パブメドセントラル

Google Scholar

Nayfach, S., Shi, Z. J., Seshadri, R., Pollard, K. S. & Kyrpides, N. C. New insights from uncultivated genomes of the global human gut microbiome. Nature 568, 505-510 (2019).

論文

CAS

PubMed

パブメドセントラル

Google Scholar

Almeida, A. et al. ヒト腸内細菌叢の新しいゲノム設計図。Nature 568, 499-504 (2019).

論文

CAS

PubMed

パブメドセントラル

Google Scholar

Pasolli, E. et al. 年齢、地理、ライフスタイルにまたがるメタゲノムから得られた15万以上のゲノムによって明らかになった、未踏のヒト微生物叢の広範な多様性。Cell 176, 649-662 (2019).

論文

CAS

PubMed

パブメドセントラル

Google Scholar

Nayfach, S. et al. 地球のマイクロバイオームのゲノムカタログ。Nat. Biotechnol. https://doi.org/10.1038/s41587-020-0718-6 (2020).

論文

PubMed

パブメドセントラル

Google Scholar

Lesker, T. R. et al. 統合メタゲノムカタログから明らかになったマウス腸内細菌叢に関する新たな知見。Cell Rep. 30, 2909-2922 (2020).

論文

論文

PubMed

PubMedセントラル

Google Scholar

Almeida, A. et al. ヒト腸内細菌叢から得られた204,938の参照ゲノムの統一カタログ。Nat. Biotechnol. https://doi.org/10.1038/s41587-020-0603-3 (2020).

論文

PubMed

パブメドセントラル

Google Scholar

野生動物の微生物叢における多様性と機能的ランドスケープ。Science 372, eabb5352 (2021).

論文

論文

PubMed

Google Scholar

原核生物9万ゲノムのハイスループットANI解析により、明確な種の境界が明らかになった。Nat. Commun. 9, 5114 (2018).

論文

PubMed

パブメドセントラル

Google Scholar

Parks, D. H. et al. 細菌と古細菌の完全なドメイン-種間分類法。Nat. Biotechnol. 38, 1079-1086 (2020).

論文

論文

パブコメ

Google Scholar

NCBI分類法:キュレーション、リソース、ツールに関する包括的な最新情報。データベース2020, baaa062 (2020).

論文

論文

パブコメ

パブメドセントラル

Google Scholar

セレウス菌のゲノム解析。FEMS Microbiol. 29, 303-329 (2005).

CAS

PubMed

Google Scholar

Tett, A. et al.プレボテラ・コプリ複合体は、欧米化した集団では十分に代表されない4つの異なるクレードから構成される。Cell Host Microbe 26, 666-679 (2019).

論文

CAS

PubMed

パブメドセントラル

Google Scholar

糞便細菌の多様性は、年齢、ライフスタイル、地理、疾患と関連している。Curr. Biol. 30, 4932-4943 (2020).

論文

PubMed

Google Scholar

NCBIリソースコーディネーター。米国国立生物工学情報センターのデータベースリソース。Nucleic Acids Res. 46, D8-D13 (2018).

論文

Google Scholar

Ondov, B. D. et al. Mash: MinHashを用いたゲノムおよびメタゲノム距離の高速推定。Genome Biol. 17, 132 (2016).

論文

PubMed

パブメドセントラル

Google Scholar

ゲノム解析から明らかになった複雑な系統地理学的集団構造と亜種の機能的適応。ゲノム生物学 21, 138 (2020).

論文

論文

PubMed

パブメドセントラル

Google Scholar

腸内細菌叢におけるヒト関連Akkermansia種のゲノム多様性と生態を広範なメタゲノム解析により明らかにした。ゲノム生物学 22, 209 (2021).

論文

論文

PubMed

パブメドセントラル

Google Scholar

Hall, A. B. et al. 炎症性腸疾患患者に濃縮された新規Ruminococcus gnavusクレード。Genome Med. 9, 103 (2017).

論文

PubMed

PubMed Central

Google Scholar

UniRef clusters: A comprehensive and scalable alternative for improving sequence similarity searches. Bioinformatics 31, 926-932 (2015).

論文

論文

PubMed

Google Scholar

Mirdita, M. et al.クラスター化され、深く注釈付けされたタンパク質配列とアラインメントのUniclustデータベース。Nucleic Acids Res. 45, D170-D176 (2017).

論文

論文

PubMed

Google Scholar

Meyer, F. et al. チュートリアル:CAMIベンチマークツールキットによるメタゲノミクスソフトウェアの評価。Nat. Protoc. https://doi.org/10.1038/s41596-020-00480-3 (2021).

Meyer、F. et al. OPALを用いた分類学的メタゲノムプロファイラの評価。Genome Biol. 20, 51 (2019).

論文

PubMed

パブメドセントラル

Google Scholar

O'Leary, N. A. et al. NCBIの参照配列(RefSeq)データベース:現状、分類学的拡張、機能アノテーション。Nucleic Acids Res. 44, D733-D745 (2016).

論文

PubMed

Google Scholar

GTDB: A ongoing census of bacterial and archaeal diversity through a phylogenetically consistent, rank normalized and complete genome-based taxonomy. Nucleic Acids Res. 50, D785-D794 (2022).

論文

論文

パブコメ

Google Scholar

砂川聡ほか:グローバル海洋マイクロバイオームの構造と機能. Science 348, 1261359 (2015).

論文

PubMed

Google Scholar

Xiao、L. et al. マウス腸内メタゲノムのカタログ。Nat. Biotechnol. 33, 1103-1108 (2015).

論文

論文

PubMed

Google Scholar

マウス微生物群の包括的ゲノムカタログから、ヒトとの大きな違いが明らかになった。PLoS Comput. Biol. 18, e1009947 (2022).

論文

論文

パブコメ

パブメドセントラル

Google Scholar

メタゲノム配列データのアセンブル、アノテーション、ゲノムビニングのためのSnakemakeワークフロー。BMC Bioinf. 21, 257 (2020).

論文

Google Scholar

Kraken2によるメタゲノム解析の改善。Genome Biol. 20, 257 (2019).

論文

論文

PubMed

パブメドセントラル

Google Scholar

MIntO:マイクロバイオームメタゲノムおよびメタトランスクリプトームデータ統合のためのモジュラーでスケーラブルなパイプライン。Front. Bioinform. 2, 846922 (2022).

論文

論文

パブメドセントラル

Google Scholar

微生物生態学:肥満と関連するヒト腸内微生物Nature 444, 1022-1023 (2006).

論文

CAS

PubMed

Google Scholar

Guenther, P. M. et al. 健康的な食事指数の更新: HEI-2010。J. Acad. 栄養学。Diet. 113, 569-580 (2013).

論文

PubMed

グーグル奨学生

Fung, T. T. et al. ダイエットクオリティスコアと炎症および内皮機能障害のマーカーの血漿中濃度。Am. J. Clin. Nutr. 82, 163-173 (2005).

論文

CAS

パブコメ

Google Scholar

Truong, D. T., Tett, A., Pasolli, E., Huttenhower, C. & Segata, N. Microbial strain-level population structure and genetic diversity from metagenomes. Genome Res. 27, 626-638 (2017).

論文

論文

PubMed

パブメドセントラル

Google Scholar

Hagan, R. W. et al. 古糞から古代の微生物DNAを回収するための抽出法の比較。Am. J. Phys. Anthropol. 171, 275-284 (2020).

論文

PubMed

グーグル

ライト,S.遺伝学 28, 114-138 (1943).

論文

CAS

PubMed

パブメドセントラル

Google Scholar

ヒトとヘリコバクター・ピロリ菌の密接な関連はアフリカ起源である。Nature 445, 915-918 (2007).

論文

PubMed

PubMed Central

Google Scholar

Shao, Y. et al. Stunted microbiota and opportunistic pathogen colonization in caesarean section birth. Nature 574, 117-121 (2019).

論文

CAS

PubMed

パブメドセントラル

Google Scholar

Valles-Colomer, M. et al.複数家族世代にわたるヒト腸内細菌叢の変動と伝播。Nat. Microbiol. 7, 87-96 (2022).

論文

論文

パブコメ

Google Scholar

Ianiro, G. et al. 異なる疾患間での糞便微生物叢移植後の菌株生着の変動性とマイクロバイオーム組成の予測可能性。Nat. Med. 28, 1913-1923 (2022).

論文

論文

PubMed

パブメドセントラル

Google Scholar

ヒトマイクロバイオームプロジェクトのための微生物群集プロファイリング:ツール、技術、課題。Genome Res. 19, 1141-1152 (2009).

論文

論文

パブコメ

パブメドセントラル

Google Scholar

Asnicar, F. et al. PhyloPhlAn 3.0を用いたメタゲノムからの微生物分離株とゲノムの正確な系統解析。Nat. Commun. 11, 2500 (2020).

論文

論文

パブコメ

パブメドセントラル

Google Scholar

McIver, L. J. et al. bioBakery: a meta'omic analysis environment. Bioinformatics 34, 1235-1237 (2018).

論文

CAS

PubMed

Google Scholar

Bowtie 2による高速ギャップドリードアライメント。Nat. Methods 9, 357-359 (2012).

論文

Google Scholar

Benson, D. A. et al. Nucleic Acids Res. 41, D36-D42 (2012).

論文

PubMed

パブメドセントラル

Google Scholar

CheckM:分離株、単細胞、メタゲノムから回収した微生物ゲノムの品質評価。Genome Res. 25, 1043-1055 (2015).

論文

論文

PubMed

PubMedセントラル

Google Scholar

Prokka: 迅速な原核生物のゲノムアノテーション。Bioinformatics 30, 2068-2069 (2014).

論文

論文

PubMed

Google Scholar

DIAMONDを用いた高速かつ高感度なタンパク質アライメント。Nat. Methods 12, 59-60 (2015).

論文

CAS

PubMed

Google Scholar

MMseqs2 は膨大なデータセットの解析のための高感度なタンパク質配列検索を可能にする。Nat. Biotechnol. 35, 1026-1028 (2017).

論文

CAS

PubMed

Google Scholar

GTDB-Tk: a toolkit to classify genomes with the Genome Taxonomy Database. Bioinformatics https://doi.org/10.1093/bioinformatics/btz848 (2019).

論文

PubMed

パブメドセントラル

Google Scholar

Lozupone, C. & Knight, R. UniFrac: a new phylogenetic method for comparising microbial communities. Appl. Microbiol. 71, 8228-8235 (2005).

論文

論文

PubMed

パブメドセントラル

Google Scholar

遺伝子発現を解析するために必要な遺伝子発現の解析手法。バイオインフォマティクス 25, 1972-1973 (2009).

論文

論文

パブメドセントラル

Google Scholar

MAFFTマルチプル配列アライメントソフトウェア バージョン7:パフォーマンスとユーザビリティの向上. Mol. Biol. Evol. 30, 772-780 (2013).

論文

論文

PubMed

パブメッドセントラル

Google Scholar

哺乳類の系統樹を推定するための高速かつ効果的な確率的アルゴリズム。Mol. Biol. Evol. 32, 268-274 (2015).

論文

CAS

PubMed

Google Scholar

Huang, W., Li, L., Myers, J. R. & Marth, G. T. ART: a next-generation sequencing read simulator. Bioinformatics 28, 593-594 (2012).

論文

PubMed

Google Scholar

メタゲノムデータにアクセス可能な、キュレーションされたExperimentHub。Nat. Methods 14, 1023-1024 (2017).

論文

論文

PubMed

パブメドセントラル

Google Scholar

配列アライメント・マップフォーマットとSAMtools. バイオインフォマティクス 25, 2078-2079 (2009).

論文

論文

パブメドセントラル

Google Scholar

RAxML version 8: A tool for phylogenetic analysis and post-analysis of large phylogenies. Bioinformatics 30, 1312-1313 (2014).

論文

論文

パブコメ

パブメドセントラル

Google Scholar

アスニカー, F., ワインガート, G., ティックル, T. L., ハッテンハワー, C. & セガタ, N. GraPhlAnによる系統データとメタデータのコンパクトなグラフ表示。PeerJ 3, e1029 (2015).

論文

PubMed

パブメドセントラル

Google Scholar

原核生物パンゲノムの高速大規模解析。Bioinformatics 31, 3691-3693 (2015).

論文

論文

PubMed

パブメドセントラル

Google Scholar

Blanco-Miguez, A. et al. MetaPhlAn 4 コードリポジトリ。http://segatalab.cibio.unitn.it/tools/metaphlan/ (2022).

Blanco-Miguez, A. et al. MetaPhlAn 4パッケージ。Bioconda. https://anaconda.org/bioconda/metaphlan (2022).

参考文献のダウンロード

謝辞
本研究への洞察に満ちた貢献をしてくれたSegata and Huttenhower研究室のメンバー全員と、MetaPhlAnの過去のバージョンのユーザーからの提案とサポートに感謝したい。本研究は、N.S.に欧州研究評議会(ERC-STGプロジェクトMetaPG-716575およびERC-COGプロジェクトmicroTOUCH-101045015)、N.S.に欧州H2020プログラム(ONCOBIOME-825410プロジェクトおよびMASTER-818368プロジェクト)、N.S.に米国国立衛生研究所がん研究所(1U01CA230551)、N.S.にPremio Internazionale Lombardia e Ricerca 2019の支援を受けた、 ハーバード・チャン・マイクロバイオーム解析コア(C.H.へ)、米国国立衛生研究所糖尿病・消化器・腎臓病研究所(R24DK110499)(C.H.へ)、英国がん研究グランドチャレンジ賞C10674/A27140(W. Garrettへ)(C.H.へ)、米国国立アレルギー・感染症研究所(U19AI110820)(D. Raskoへ)(C.H.へ)。

著者情報
著者および所属
トレント大学CIBIO学部、トレント、イタリア

Aitor Blanco-Míguez、Francesco Beghini、Fabio Cumbo、Moreno Zolfo、Paolo Manghi、Leonard Dubois、Kun D. Huang、Andrew Maltez Thomas、Gianmarco Piccinno、Elisa Piperni、Michal Punčochář、Mireia Valles-Colomer、Adrian Tett、Francesco Asnicar、Nicola Segata。

ハーバードT.H.チャン公衆衛生大学院(米国マサチューセッツ州ボストン

ローレン・J・マキバー、ケルシー・N・トンプソン、ウィリアム・A・ニコルズ、エリック・A・フランゾーザ、カーティス・ハッテンハワー

ブロード研究所(マサチューセッツ工科大学・ハーバード大学、米国マサチューセッツ州ケンブリッジ

ローレン・J・マキバー、ケルシー・N・トンプソン、ウィリアム・A・ニコルズ、エリック・A・フランゾーザ、カーティス・ハッテンハワー

イタリア、ミラノ、欧州腫瘍学研究所IRCCS、IEO

エリサ・ピペルニ&ニコラ・セガタ

ウィーン大学微生物学・環境システム科学センター(オーストリア・ウィーン

エイドリアン・テット

ゾーイ・グローバル(英国、ロンドン

フランチェスカ・ジョルダーノ、リチャード・デイヴィス、ジョナサン・ウルフ

キングス・カレッジ・ロンドン栄養科学科(イギリス・ロンドン

サラ・E・ベリー

英国、ロンドン、キングス・カレッジ・ロンドン、双子研究部門

ティム・D・スペクター

イタリア、ナポリ、ナポリ大学農業科学部

エドアルド・パソッリ

貢献
A.B.M.とN.S.は本研究を発案した。A.B.M.はコードの作成、検証、テストを行い、ほとんどの解析を行った。F.B.、F.C.、L.J.M.、K.N.T.、M.Z.、P.M.、L.D.、K.D.H.、A.M.T.、W.A.N.、G.P.、E.Piperni、M.P.、M.V.C.、A.T.、F.A.は、メソッドとソフトウェアの開発と検証をサポートし、解析に貢献した。A.B.M.、F.A.、C.H.およびN.S.は、著者全員の貢献と編集により論文を執筆した。C.H.とN.S.が監修した。著者全員が最終版を読み、承認した。

筆者
Nicola Segataまで。

倫理申告
競合利益
S.E.B.、T.D.S.、F.A.およびN.S.はゾーイ・グローバルのコンサルタントである。F.G.、R.D.、J.W.はゾーイ・グローバルの社員である。他の著者は、競合する利害関係はないと宣言している。

査読
査読情報
Nature Biotechnology誌は、C. Titus Brownおよびその他の査読者(匿名)に感謝する。

追加情報
出版社注:Springer Natureは、出版された地図の管轄権の主張および所属機関に関して中立を保っています。

補足情報
補足情報
補足図1-10および補足表1-25。

報告概要
補足表
補足表1-25

補足表2
補足表2のZipファイル。

権利と許可
オープンアクセス 本論文は、クリエイティブ・コモンズ表示4.0国際ライセンスの下でライセンスされている。このライセンスは、原著者および出典に適切なクレジットを与え、クリエイティブ・コモンズ・ライセンスへのリンクを提供し、変更が加えられた場合にその旨を示す限り、いかなる媒体または形式においても、使用、共有、翻案、配布、複製を許可するものである。この記事に掲載されている画像やその他の第三者の素材は、その素材へのクレジット表示で別段の指示がない限り、記事のクリエイティブ・コモンズ・ライセンスに含まれています。素材が記事のクリエイティブ・コモンズ・ライセンスに含まれておらず、あなたの意図する利用が法的規制によって許可されていない場合、または許可された利用を超える場合は、著作権者から直接許可を得る必要があります。このライセンスのコピーを見るには、http://creativecommons.org/licenses/by/4.0/。

転載と許可

この記事について
アップデートの確認 CrossMarkを経由して通貨と真正性を確認する
この記事の引用
Blanco-Míguez, A., Beghini, F., Cumbo, F. et al. MetaPhlAn 4を用いた未同定種のメタゲノム分類学的プロファイリングの拡張と改善。Nat Biotechnol (2023). https://doi.org/10.1038/s41587-023-01688-w

引用文献のダウンロード

受領
2022年06月07日

受理
2023年1月20日

出版
2023年2月23日

DOI
https://doi.org/10.1038/s41587-023-01688-w

この記事を共有する
以下のリンクをシェアすると、誰でもこのコンテンツを読むことができます:

共有可能なリンクを取得
コンテンツ共有イニシアチブSpringer Nature SharedItにより提供されています。

対象
データ処理
メタゲノミクス
この論文の引用元
happi:パンゲノミクス推論への階層的アプローチ
ポーリン・トリンDavid S. ClausenAmy D. Willis
ゲノムバイオロジー (2023)

Bacteroides ovatusはコバラミン蓄積により2型糖尿病患者のメトホルミン誘発性ビタミンB12欠乏症を促進する
陳萬雲ヤン・シュウウェイ・チャン
バイオフィルムとマイクロバイオーム (2023)

IIB型制限部位を標的としたメタゲノミクスに基づく分類プロファイリングにおける偽陽性の除去
鄭舜江劉楊宇
ネイチャー・コミュニケーションズ (2023)

がん免疫療法のための次世代バイオマーカーとしての腸内オンコマイクロバイオームシグネチャー(GOMS)
Andrew Maltez ThomasMarine FidelleLaurence Zitvogel
ネイチャーレビュークリニカルオンコロジー(2023年)

間食の質と間食のタイミングは心代謝血中マーカーと関連する:ZOE PREDICT研究
ケイト・M・バーミンガムアナ・メイサラ・E・ベリー
栄養のヨーロッパジャーナル(2023)

ネイチャーバイオテクノロジー(Nat Biotechnol) ISSN 1546-1696(オンライン) ISSN 1087-0156(印刷物)

サイトマップ
ネイチャー・ポートフォリオについて
ネイチャーについて
プレスリリース
プレスオフィス
お問い合わせ
コンテンツを見る
ジャーナルA-Z
テーマ別記事
ナノ
プロトコル交換
ネイチャー・インデックス
出版ポリシー
Natureポートフォリオポリシー
オープンアクセス
著者・研究者サービス
別刷りと許可
研究データ
言語編集
科学編集
ネイチャー・マスタークラス
エキスパートトレーナーによるワークショップ
研究ソリューション
図書館・機関
図書館員サービス&ツール
図書館ポータル
オープンリサーチ
図書館への推薦
広告とパートナーシップ
広告
パートナーシップとサービス
メディアキット
ブランドコンテンツ
キャリア開発
ネイチャー・キャリア
ネイチャーコンファレンス
ネイチャーイベント
地域ウェブサイト
ネイチャー アフリカ
ネイチャー・チャイナ
ネイチャー インド
ネイチャー イタリア
日本のネイチャー
ネイチャー 韓国
ネイチャー 中東
プライバシーポリシー クッキーの使用 お客様のプライバシーに関する選択/クッキーの管理 法的通知 アクセシビリティに関する声明 利用規約 お客様の米国におけるプライバシー権
シュプリンガー・ネイチャー
© 2023 シュプリンガー・ネイチャー

この記事が気に入ったらサポートをしてみませんか?