ゲノムの汚染を除去することで、祖先ゲノムの進化解析から系統的バイアスを排除することができる

2022年12月27日 21:05

ゲノムの汚染を除去することで、祖先ゲノムの進化解析から系統的バイアスを排除することができる
View ORCID ProfileBalázs Bálint, View ORCID ProfileZsolt Merényi, View ORCID ProfileBotond Hegedüs, View ORCID ProfileIgor V. Grigoriev, View ORCID ProfileZhihao Hou, View ORCID ProfileCsenge Földi, View ORCID ProfileLászló G. Nagy
doi: https://doi.org/10.1101/2022.11.17.516887
この記事はプレプリントであり、査読の認定を受けていません[この意味は?］
00000045
要旨全文情報/履歴メトリックプレビューPDF
要旨
ゲノムや配列データベースの汚染は、ますます認識されつつある問題であるが、異種配列を除去する効率的なツールはまだ少なく、不純物が下流の解析に与える影響についてはまだ十分に検討されていない。本発表では、ゲノムの汚染を除去するための新しい高感度ツールContScoutを紹介し、844の公開済み真核生物ゲノムの汚染レベルを評価し、汚染タンパク質がゲノム進化の解析に重大な影響を与えることを示す。また、合成データに対するベンチマークにより、ContScoutが異なる高次分類群の配列を互いに分離する際に、高い特異性と感度を達成することを実証した。さらに、手動でキュレーションしたデータでテストすることにより、ContScoutが既存のツールよりはるかに優れていることを示す。進化ゲノミクスでますます一般的になっている祖先ゲノム再構成の文脈では、汚染が遺伝子ファミリーの偽の初期起源をもたらし、遺伝子喪失率を数倍に膨らませ、複雑な祖先ゲノムの誤った概念につながることを示す。LECAを含む初期の真核生物の祖先をテストケースとして、バイアスの大きさを評価し、推定問題のメカニズム的な基盤を明らかにした。これらの結果から、汚染フィルタリングを新しいドラフトゲノムの報告のルーチンステップに組み込むことを提唱し、汚染を考慮せずに複雑な祖先ゲノムとその後の遺伝子喪失をそのまま解釈することに注意を喚起するものである。

はじめに
近年のハイスループット・シーケンスの技術的進歩とシーケンシングコストの低下により、ゲノム配列データベースはかつてないほど増加している1,2。ロングリードシーケンスを実現する装置とショートリードプラットフォームのスループットの大幅な向上により、初期のシーケンスプロジェクトで主流であった原核生物ゲノムに加え、複雑な真核生物ゲノムの解析が可能になりつつあります。近年、数万の昆虫3、脊椎動物4、真菌5、植物6、あるいは地球上の真核生物全体のゲノムを解読することを目的とした大規模な真核生物配列決定プロジェクトが開始されました7。しかし、原核生物ゲノムの多くが完全に解析された（完成した）ものであるのに対し、真核生物ゲノムはほとんどすべてが未完成のドラフトとして公開データベースに登録される。

生物学的あるいは技術的な様々な問題により、ドラフトゲノムには対象となる生物に含まれない配列が含まれている場合があります8,9。生物学的な汚染源としては、対象生物に関連する共生生物や病原菌が、技術的な汚染源としては、サンプルの誤処理、データ処理エラーなどが考えられる。博物館の標本に依存するプロジェクトは、特にクロスコンタミネーションに対して脆弱である10-12。注意深く対処しなければ、汚染された参照ゲノムは、不正確なラベルが付けられた配列データで公共のデータベースを汚染する可能性があり、これはGenBankだけで200万以上の汚染された記録を特定した最近の研究によって実証されています13。ドラフトゲノム内の汚染の程度はプロジェクトによって異なりますが、極端な例では、対象となる検体のゲノムに加えて、汚染された生物のゲノムのほぼ完全なドラフトをシーケンスデータから組み立てることができる場合があります14,15。

汚染は、下流の解析を危険にさらす可能性があること、水平方向の遺伝子移動と誤解されること16,17、系統樹推定に悪影響を与えること18-20が知られている。しかし、他の植物ゲノムや進化ゲノムの手法が汚染に対してどのような感度を持つかは、これらの分野が大きく発展しているにもかかわらず、評価されていない21,22。例えば、祖先ゲノム推定は、絶滅した生物のゲノムをインシリコで再構築する23-25、祖先生物のゲノム構成と複雑さの推測26-28、遺伝子の重複と消失パターン21,22、ゲノム進化の速度29、主要な進化的遷移の遺伝的基盤30,31などに利用されてきた。また、この枠組みは、表現型と遺伝的変化を相関させることにより、目的の形質に関与する遺伝子を予測すること（フォワードゲノミクス）32,33にも利用されてきた。これらのアプローチは、特定の解析上の問題に対して敏感であることが報告されているが（Pett et al.34, Hahn35など）、汚染などのデータ品質の問題がその性能に影響を与えるかどうか、またどのように影響を与えるかは、これまで検討されていない。

過去10年間に、BLAST検索やk-mersを用いた生リードや遺伝子のデータベースフリーまたは依存的な分類、あるいは事前に選択されたマーカー遺伝子やゲノム全体のカタログを利用したゲノム品質評価など、様々な検索ロジックに基づいて汚染を検出するツールがいくつか開発されました。しかし、これらのアプローチはいずれも限界があり、明示的なタグ付けや汚染遺伝子・タンパク質の除去には使用できない。選択されたユニバーサルシングルコピー遺伝子に基づいて構築されたツール（CheckM36、BUSCO37、ConFindr38など）は、汚染の程度を正確に推定できますが、汚染配列を正確に特定し除去することはできません。CheckM36、CLARK39、ConFindr38 Anvi'o40、GUNC41などのほとんどの汚染評価ツールは、原核生物（古細菌、バクテリア）だけに焦点を当てているか、DNA配列だけを入力として受け付けています（例：Kraken42、ProDeGe43、 BlobTools44、PhylOligo45、CroCo46、CONSULT47.など. DNAはタンパク質配列よりも進化が早いため、前者を使用するツールは、汚染された生物またはその近縁種が参照データベースに存在することを暗黙の前提にしています。これは、最もよくサンプルされた生物群であってもそうでないことが多く、特に通常タンパク質配列を入力として使用する比較系統学研究においては、タンパク質ベースのソリューションが必要な場合があることを示唆している。BASTA48とConterminator13は共にタンパク質配列を入力として使用でき、後者はRefSeqの210万以上の遺伝子とNRの約14,000のタンパク質に汚染フラグを立てるために使用された。しかしながら、ゲノムデータベースから汚染タンパク質を除去するための効率的で高感度なツールはまだ開発されていない。

本論文では、ドラフトプロテオームから汚染タンパク質を同定・除去するための新しい高精度ツール、ContScoutを紹介します。ContScoutは固定された閾値を適用するのではなく、各クエリー配列に対して分類に最適なトップスコアのヒットを自動的に選択し、この情報を遺伝子位置データと組み合わせることにより、既存の方法よりも高い分類精度を実現する。真核生物844ゲノムをContScoutでスクリーニングした結果、51,222の汚染配列を同定した。汚染配列の多くはバクテリア由来だが、菌類、後生動物、植物にも由来する。さらに、進化ゲノム解析に汚染配列を含めると、偽の祖先遺伝子数の推定や遺伝子喪失率の大幅な上昇をもたらすことを示す。また、LECAを含む主要な真核生物の祖先のゲノム構成に汚染が悪影響を及ぼすことを示す。

研究成果
ゲノム汚染検出・除去のための新しいアルゴリズム
我々は、参照データベースに基づくタンパク質分類と遺伝子位置データを組み合わせた、新しい汚染検出・除去ツールContScoutを開発した（図1）。クエリゲノムから予測された各タンパク質は、まずDIAMOND49またはMMseqs50を使用して、分類を考慮した参照データベースに対する速度最適化タンパク質配列検索によって高レベル分類（HLT）タグと関連付けられます。

図1:
図をダウンロード
新しいタブで開く
図1:
ContScout アルゴリズムの概要。
I. 分類を考慮した参照データベースに対して、クエリ蛋白質による高速データベース検索が行われる。II. 各ヒットリストに対して動的閾値によるヒットトリミングを行い、各クエリタンパク質に対して上位の分類群ラベルを割り当てる。III. タンパク質分類ラベルは、コーディングコンティグ／スキャフォールドに対して合計される。コンティグ／スキャフォールドがクエリゲノムと一致しない場合、そのコンティグ／スキャフォールドは、それがコードするすべてのタンパク質とともに削除されます。タンパク質分類の例 A., 全てのヒットが一致: dynRLEトリミングは適用されません。B. ヒットリストに2つ以上の上位分類が含まれる場合：2分類までのトップスコアヒットが考慮されます。C., 2つの分類群からのヒットが交互に現れる: 最大3つの分類群の変更が許可されます。D., ヒット数が不十分な場合：タンパク質は "unknown "と表示されます。BとCの例では、青い点線の四角は、クエリタンパク質の分類子を表示する際に考慮されるトップヒットを示しています。緑色のチェックマークは本物のホスト配列、赤色の十字マークはコンタミとしてマークされた配列を示す。

HLTラベルを持つヒットリストは、HLTタグが2つまで、かつ値の変化が合計3つ以下のトップスコア上部のみを残してトリミングされます（図1、その2）。さらに、感度や特異性を高めるために、HLT分類をコーディングサイト情報（コンティグ／スキャフォールド注釈）と組み合わせ、アセンブリ内の各コンティグ／スキャフォールドに対してHLTラベルのコンセンサスを得る。HLTラベルがクエリプロテオームと一致するコンティグは保持され、一致しないものは汚染としてマークされ、それらがコードするすべてのタンパク質とともに削除されます。

ContScoutのデータストレージのフットプリントは、クエリゲノムあたり0.1-7.8GBytesで、実行時間は46-113分（24CPUコア、RAM使用量は150GBに制限）でベンチマークされています。このうち、類似性検索は実行時間の80-99%を占めています（図1）。(補足図1)。

ContScoutはRで実装されており、すべてのソフトウェアコンポーネントとその依存関係はDockerコンテナに配置され、容易に展開できるようになっています。また、ソフトウェアパッケージにはデータベースダウンローダースクリプトが含まれており、参照データベースのダウンロードと事前フォーマットを便利に行うことができます。

合成データでの性能評価
ContScoutの性能は、G36データセットに含まれる17のコンタミネーションフリーゲノムのすべての可能なペアワイズクロスHLTペアに対して人工的にコンタミネーションゲノムを作成することで評価しました（詳細は方法をご覧ください）。各ゲノムペアについて、100, 200, 400, 800, 1600, 3200個の汚染タンパク質をレシーバープロテオームに導入して、両方の汚染方向をテストした。

合成データを用いたテストの結果、ContScoutは全体として、各組み合わせにおいて汚染タンパク質の大部分を同定することができました（図2）。汚染源がBacteria（AUC range: 0.98-1, median: 1）、Animal（AUC range: 0.9649-1, median: 0.99）、Plants（AUC range: 0.98-1, median: 0.99）またはFungi（AUC range: 0.97-1, median: 0.99）に由来するとき最も性能が高くなりました。その他の真核生物、ユーグレナゾア、アメーバゾアの代表を汚染源として使用した場合、性能はやや低下しました（AUC range: 0.64-1, median: 0.98）。また、AUCの低下に伴い、Phytomonasを汚染源とした場合、真陽性率が若干低下し（TPR range: 0.78-1, median: 0.98）、Dictyostelium配列で汚染した場合、ターゲットゲノムに関わらず真陽性率が最も悪く（TPR range: 0.28-1, median: 0.82）なることが確認されました。

図2:
図のダウンロード
新しいタブで開く
図2:
合成データに対するContScoutの性能。
様々なHLTのソースとターゲットのプロテオームの可能な組み合わせの間で、様々な数のタンパク質を転送することにより、人工的に汚染されたゲノムを作成しました。人工的に導入されたタンパク質は、ContScoutで汚染/宿主に分類され、それぞれの予測について曲線下面積の統計量が計算されました。ボックスプロットのマトリックスは、ソースHLT（パネルマトリックスの列に対応）およびターゲットHLT（パネルマトリックスの行に対応）に従ってグループ化されたAUC値の分布を示す。各ボックスプロット内で、軸xは転送された外来タンパク質の量を示す。

手動でフィルタリングしたゲノムの性能評価
著者らによってAspergillus zonatus（糸状菌、n=1476）51）とBombus impatiens（マルハナバチ、n=680）のプロテオームから手動でキュレーションされた汚染配列を、ContScoutとBASTAおよびConterminatorの性能を比較する際の基礎知識として使用した15、51、52）。ContScoutは、A. zonatusから手動で確認した1,476個の細菌タンパク質をすべて正確にマークすることができたが、BASTAは1,341個の細菌タンパク質を特定し、Conterminatorは948個のタンパク質しかマークしなかった。3つのツールとも、A. zonatusの純正配列に対して偽陽性予測を行わなかった。

Bombus impatiensについては、汚染された昆虫プロテオーム52と、独自に公開された共生生物ドラフトゲノム15のタンパク質との重複を、汚染配列の手動検証コレクションとみなし、ground truthとして使用した。ContScoutは再び680の全配列を汚染物質として検出したが、BASTAは162のみをマークした。Conterminatorは8つの配列のみを特定した。

これらの例に加え、真菌特異的ドメインを含むQ. suberタンパク質（n=560、方法参照）に対する3ツールの性能も評価した。560のクエリー配列のうち、ContScoutは556を正確に真菌の汚染物としてタグ付けした。BASTAは44個を検出したが、Conterminatorはそのうちの2個しか同定できなかった。

BASTAスクリーニングは、より寛容な類似性閾値（デフォルト値I=80の代わりに50%の配列同一性）を用いて繰り返された。類似度閾値を緩和した後、Bastaは190のクエリータンパク質を菌類汚染物として正確に呼び出したが、テストセットから390の配列（70%）を見逃したままであった。また、Bastaがデフォルトの閾値で真菌汚染物質と正しく同定した44個のタンパク質のうち、36個は類似度の設定を緩和しても同定できず、「Unknown」または「Eukaryote」タクソンと判定されたことは特筆される。これらの結果は、BASTAの分類性能は、ユーザーが設定する類似度閾値に大きく依存することを示している。

ContScoutとConterminatorの包括的な比較
ContScoutとConterminatorを包括的に比較するために、G844データセット全体のスクリーニングをContScoutとConterminatorの両方で実施した13。BASTAは、844個のプロテオームすべてを解析するのに必要な計算資源が多すぎるため、この比較からは除外された。

Conterminatorは、Linclustベースのタンパク質検索モードとデフォルトのクラスタリングパラメータを使用して、844のゲノムから14,749,299のタンパク質のうち327の汚染物質を同定しました。Steineggerら13が適用した検索条件と同様に、現在可能な限り包括的なデータベースをツールに提供するために、Uniref100データベースと844ゲノムのタンパク質の非冗長結合で分析を繰り返した（詳細は方法を参照）。この場合、Conterminatorは844ゲノムから得られた14.7Mのタンパク質から4,513のヒットを含む18,016のタンパク質を汚染物質としてマークしました。同時に、ContScoutはこのセットの中で51,222個のタンパク質を除去するためにマークしました。2つのヒットリストを比較すると、Conterminatorのヒットの93.24%がContScoutでも報告され、ContScoutのヒットのうちConterminatorが確認したのは8.22%だけでした（図3）。分類学的親和性の粗い代理として、各クエリー蛋白質の上位10ヒットに基づき、クエリー-ヒットHLT一致比率値を算出した。両ソフトウェアでコンタミと判定されたタンパク質の99%以上は、この比率が0.25以下であった。同様に、両ソフトウェアで非汚染と判定されたタンパク質の98%は、少なくとも75%の分類学的支持を示しました。ContScoutによってのみ予測された汚染物質の94%は、0.25未満の分類学的支持を示し、両方のツールによって同時に汚染物質として予測されたタンパク質に似ていることは注目に値します。同時に、Conterminatorによってのみマークされたタンパク質の55%は、少なくとも0.75の分類学的支持を示し、誤検出の可能性を示唆しました（図3）。これらの図を総合すると、ContScoutは、タンパク質配列の汚染検出のための最新のツールであるConterminatorよりも優れていることが分かります。

図3:
図のダウンロード
新しいタブで開く
図3:
ConterminatorとContScoutの性能比較。
G844のプロテオームデータは、UniRef100データベースと冗長化せずに統合され、13と同様のデータベーススクリーニングが可能になりました。ContScoutスクリーニングは、メソッドセクションに記載されているように、デフォルトのパラメータで実施された。タンパク質は、汚染物質として呼び出したツールによって4つのグループに分類された：なし、両方、Conterminatorのみ（CTのみ）、ContScoutのみ（CSのみ）。各クエリ配列について、分類を考慮したUniRef100データベースからトップ10ヒットを取り出し、クエリHLTを確認したヒットの割合を計算することにより、粗い分類サポート推定値が決定された。Matrix of violin plotsは、各タンパク質群について、クエリ分類を支持するヒットの比率をまとめたもので、クエリHLTに応じて個別に可視化されている。(A: 動物、B: 真菌、C: 植物、D: その他の真核生物）。

ContScoutは真核生物ゲノムに蔓延する様々な汚染を検出します。
公開ゲノムデータベースの汚染度を評価するため、真核生物の全主要グループ（後生動物341、植物129、菌類272、その他の真核生物102）の844プロテオームを含むタンパク質データベースで得られたContScout出力を解析しました。ContScoutは、447のプロテオームから少なくとも1つの汚染タンパク質を検出し、プロテオームあたり平均114の汚染物質を報告して、蔓延する汚染の存在を明らかにしました（範囲：1〜12,656）。検査したプロテオームにおける汚染の存在は、真菌（43％）で最も少なく、動物（55％）と植物（56％）でわずかに多く、その他の真核生物（66％）で最も多かった。

G844データセットでは、細菌（30,666）および真菌（17,531）が最も頻繁に汚染源となることが判明した。真菌のタンパク質のうち12,656個は、1つの汚染された植物プロテオームQuercus suberにリンクすることができた（図4/B）。Viridiplantae (1,538) と Metazoa (1,069) を合わせても、汚染されたタンパク質の5%以下しかありませんでした。ウイルスは273個検出され、古細菌由来の汚染タンパク質は76個検出されました。

図4:
図のダウンロード
新しいタブで開く
図4:
844ゲノムの汚染統計のまとめ。
A：G844データセットで検出された汚染タンパク質の数を示すバイオリンプロット。汚染されていないプロテオーム（N: 397）はプロットから除外された。データポイントは、クエリゲノムのHLTメンバーシップに従ってグループにソートされた。B: G844データで検出された汚染-宿主ペアの数をまとめたバープロット。C: ヒートマップ（青いセル）は、上位200の汚染プロテオームそれぞれで検出された汚染物質に対する各HLTグループの寄与を示す。ゲノムはHLTに属するかどうかでグループ分けされ、アルファベット順に並んでいる。カラムアノテーション（赤枠）は、汚染タンパク質上で検出されたドメインのうち、細菌由来のドメインの比率に相当する。

最も汚染された200のプロテオームから、140の汚染物質が複数の供給源に由来している一方で、60の汚染物質が単一のHLTに由来していることが分かりました。55のプロテオームでは、細菌が唯一の汚染源であることが判明しました（図4/C）。汚染源としてBacteriaが多いことは、汚染配列内のPfamドメイン解析でも確認されました。最も汚染された200のプロテオームのうち52において、Bacteria専用のPfamドメインが汚染配列に呼ばれた余剰ドメインの50%以上を占めていました。ContScoutでマークされた配列はSupplement table 1にリストアップされている。

コンタミネーションによる系統解析の偏り
次に、汚染は遺伝子内容の系統学的解析と祖先ゲノムの再構築にバイアスをかけるかもしれないという仮説に取り組みました。最近、いくつかの生物群では祖先ゲノムの復元が盛んに行われ、ゲノム進化の幅広いパターンが明らかにされている。例えば、メタゾア、陸上植物、菌類では、遺伝子重複の初期バーストとそれに続く遺伝子喪失がゲノム進化の支配的なメカニズムとして現れた（例えば、31,33,53-57. しかし、汚染がこれらの解析にどのように影響するかは、これまで評価されていない。我々は、オリジナルデータと汚染除去されたデータを用いて、最後の真核生物共通祖先（LECA）を含む初期の真核生物の祖先の遺伝子量の再構成を行い、この問題に取り組んだ。

10種の汚染ゲノムを含む36種のデータセットを用い、オリジナルゲノムとContScoutで洗浄したゲノムを用いて、遺伝子の増加、重複、喪失パターンを推測した。図5は、汚染されたデータとクリーンなデータの間で、推定される祖先ゲノムサイズにかなりの違いがあることを示している。例えば、汚染されたデータでは、LECAは10,764個のタンパクコード遺伝子を有していたが、汚染除去されたデータでは8,919個であり、20.6%の過大評価であった。最も大きな差（88%の過大評価）はOpisthokonta MRCA（図5のN49）に見られ、汚染されたデータでは14,216個と、汚染されていないデータ（8,119個）よりも6,097個多く祖先遺伝子が示唆されていた。このノードには、コルク樫の真菌遺伝子（12,650個）やマルハナバチの細菌遺伝子（965個）など、複数の汚染されたゲノムからの信号が複合的に反映されています。これは明らかに極端な例で、2つの大規模な汚染ゲノムを含んでいるためです。しかし、この例から、汚染は樹木の最近のノードから古代のノードに移るにつれて加法的に作用することが明らかになりました。したがって、中程度に汚染されたゲノムの複合効果によって、祖先遺伝子数の大幅な過大評価が蓄積される可能性がある。また、汚染は汚染されたゲノムと汚染されたゲノムを結ぶ系統樹全体に渡って祖先遺伝子数に影響を及ぼしていることも注目すべき点である。

図5:
図のダウンロード
新しいタブで開く
図5:
36Gデータセットにおける祖先ゲノム再構成への汚染の影響。
コピー数の推定値は、種樹の内部ノードラベルとして提供されます。汚染されたデータに基づく推定値は赤で、清浄なデータから推定された値は青で表示されています。棒グラフは、顕著なノードでコピー数予測に導入された個々の汚染ゲノムの偏りを示す。棒グラフはコピー数をパーセントで表示しており、100%は任意の内部ノードでクリーンデータから推定されたコピー数に相当します。略語は棒グラフの凡例に使用。Filt: 汚染除去、Cont: 汚染、Aszo: Aspergillus zonatus、Boim: Bombus impatiens, Care: Caenorhabditis remanei, Drbi: Drosophila bipectinata、Drob: Drosophila obscura、Metr: Medicago truncatula PyXb: Pyrus x bretschneideri、Qusu: Quercus suber, Dipu: Dictyostelium purpureum, Nagr: Naegleria gruberii. 内部の節が目立つ。N37：LUCA、N42：LECA、N48：Opisthokont + Archaeplastida MRCA、N49：Opisthokont MRCA、N60：TSAR + Archaeplastida MRCA

汚染によりノードで推定された祖先遺伝子は、その発生源の明確な機能シグナルを示した。汚染されたデータセットのLECAで推定された1,845個の遺伝子は、ほとんど、あるいは独占的にバクテリアに発生するタンパク質ドメインに明らかに濃縮されていた（補足表2）。このような祖先ゲノムにおける異質な機能は、祖先種の機能理解を明らかに歪める可能性がある。真核生物の祖先遺伝子量の推定に使われたNaegleriaゲノムに細菌汚染が検出され（n=60）、祖先遺伝子量の過大評価の問題に寄与する可能性もあることは注目に値する26。

データセット全体を通して、汚染された解析は汚染除去された解析よりも11,029個多い遺伝子増加（de novo起源と重複）と56,687個多い遺伝子損失を示唆し、どちらの指標も汚染によって偏りがあるが、遺伝子損失は5倍近く影響を受けることが示された。G36データセット内の汚染された10種のゲノムから、選択的に汚染除去した一連のデータを用いて、汚染物質の影響を個別に測定したところ、予想通り、古代遺伝子のコピー推定値は、G36データセット内の汚染された10種のゲノムのコピー推定値よりも高い値を示した。その結果，Archaeplastida / TSAR (N60)のMRCAにおける古代遺伝子コピー推定値の過大評価は，Quercus suberの汚染によってのみ説明でき，他のゲノムの寄与はかなり小さいことがわかった．一方、LUCA（N37）の過大評価は、主に昆虫や真菌のゲノムに細菌配列が混入したことに起因している。LECA (N42) とオピストコントMRCA (N49) では、個々の汚染ゲノムの影響が明らかに合計され、コピー数の過大評価に偏りが生じていることは注目に値する。

汚染は遺伝子喪失率を著しく増大させる
汚染によって遺伝子損失が遺伝子増加の5倍近くに膨らむ理由を明らかにするために、汚染を含む遺伝子ファミリーを手作業でチェックした。ピリドキサール5'-リン酸サルベージ経路の一部であり、生命の木全体で保存されているピリドキナーゼタンパク質ファミリーを選び、ContScoutでQ. suberとB. impatiensで1つのコンタミネーションを確認した（補遺図2）。最尤遺伝子樹では、位置のずれた2つのタンパク質が容易に同定された。Q. suberのタンパク質"(Quersube_4764) "は真菌のピリドキナーゼとクラスター化し（SH支持値：0.98）、B. impatiensのタンパク質("Bombimpa_11962")は明らかに細菌クレードに配置された(SH支持値：0.97)。この2つのタンパク質は、Q. suberとB. impatiensのそれぞれ94個と60個のタンパク質とともに、ContScoutによって汚染物としてタグ付けされ、同じ組み立てられたスキャフォールドに配置された。遺伝子ツリーに沿って、"Quersube_4764 "はContScoutによって菌類とタグ付けされ、"Bombimpa_11962 "はバクテリア由来であると予測された。

このタンパク質ファミリーについて、ゲノムワイドマッピングで用いた方法を用いて、種の系統上での遺伝子獲得/喪失イベントの照合とマッピングを行いました。その結果、汚染された遺伝子ツリーと汚染除去された遺伝子ツリーは、それぞれ26個（遺伝子獲得6個、損失20個）、8個（獲得7個、損失1個）のイベントによって説明できることが示された（図6）。

図6:
図のダウンロード
新しいタブで開く
図6:
ピリドキナーゼ蛋白質ファミリーの事例で示された遺伝子損失／遺伝子利得推論に導入された汚染の偏り。
左側は汚染されたデータに基づいて推定された遺伝子ファミリーの進化イベント、右側はクリーンなデータに基づいて推定された進化イベントをマッピングしている。青丸は遺伝子の増加を示し、赤丸は遺伝子の減少を示す。各ノードの円の大きさは、マッピングされたイベントの数に比例している。

LECAでは、このファミリーの祖先遺伝子は、除染された解析では1つ、汚染された解析では2つであったが、汚染された解析では、このファミリーの祖先遺伝子は1つであった。この傾向はゲノム全体の数と同様であり（上記参照）、汚染された遺伝子と汚染除去された遺伝子の木が2つのタンパク質でのみ異なっていることを考えると、有意な差であると言える。もし、この2つのタンパク質が、例えばJuglans regia（クルミ）の19577と27563のように、両方とも種特異的なパラログであれば、あと2つのイベントしか必要なかったはずである。しかし、Quersube_4764とBombimpa_11962はそれぞれ8個と10個の遺伝子喪失を引き起こしたことが分かった。Quersube_4764の場合、マッピング中にQuersube_4764が真菌のタンパク質（Zymps_805618）と1対1のオルソグループに割り当てられ、オルソロジーの定義により、オルソグループ［Quersube_4764、Zymps_805618］の起源が植物と菌類の最も新しい共通祖先になければならなかったため、これらの損失は導入されました。従って、このオルソグループが系統に沿って説明されるためには、Q. suberとZ. tritici以外の植物・菌類の祖先の子孫について損失を数えなければならない。

ここでは、ほとんどの和解に基づく遺伝子ファミリー解析で用いられているように、種分化のイベントによって互いに分離された遺伝子のセットをオルソグループと定義する(22,58-60.)。いくつかの研究では、より緩やかに、類似性に基づくクラスタリングアプローチ（例えば、MCL（61,62））で一緒にクラスタリングする類似タンパク質のセットとして、オルソグループを定義している。このような単純なアプローチは、個々の遺伝子の重複や消失のレベルで遺伝子ファミリーの進化を解決しないため、汚染による歪みの影響を受けにくいと考えられる。しかし、このような研究でも汚染の影響を大きく受ける可能性がある。36種のデータセットから、菌類＋Q. suber、細菌＋B. impatiensのタンパク質のみからなるクラスターをそれぞれ1,827個と259個同定した。これらのクラスターのうち、Q. suberとB. impatiensのタンパク質1,814個と259個はContScoutによって汚染と同定された。系統樹マッピングでは、これらのクラスターはそれぞれ13,043と2,223の損失をもたらし、MCLで推定した類似度ベースのクラスターとオーソグループを同一視しても、遺伝子ファミリーの起源を早く押し上げることになった。

考察
本論文では、アセンブルされたゲノム配列中の汚染タンパク質を同定する新しい方法を提示し、進化ゲノミクスにおいて汚染が複雑な祖先ゲノムと高い遺伝子喪失率という誤った概念をもたらすことを示した。コンタミネーションは配列データベースにおいて広く認識されている問題であり、様々な理由に起因する（Cornet et al.63によるレビュー）。大規模な配列データベースの汚染を検出したり13、（メタ）ゲノムの汚染度を推定するツールがいくつか開発されている（CheckM36、Busco37など）。これまでのツールの多くは、生シーケンスリードを宿主と外来種に分類したり39,42、あるいは事前に選択したマーカー遺伝子やリボソームタンパク質のセットとの類似性を測定することに焦点を当てており、ゲノムの汚染を除去できるゲノムワイドなツールはほとんどありません13。ContScoutは、参照データベースとゲノムアノテーションデータに基づき、汚染タンパク質を同定・除去するゲノムワイドな手法である。ContScoutは、タクソンを意識した参照データベースに対して類似性検索を行い、タンパク質単位のタクソンを推定した後、コンティグ/スキャフォールド間でこれらをまとめ、汚染と思われる配列にフラグを立てます。このように、ContScoutは汚染タンパク質を除去し、クリーンなゲノムを得ることができます。この機能は、ゲノム解読の対象が野外や博物館の標本、生物の混合物（例：宿主とその寄生体、メタゲノム）、培養不可能な単細胞など、汚染のリスクが高まるほど重要になると予想されます。合成データの解析、手作業でキュレーションした配列に対するベンチマーク、タンパク質配列の他の汚染除去ツールとの比較から、ContScoutが高い感度と特異性を達成することが示されました。これは、RLEに基づくタキソンコールとスキャフォールドレベルの意思決定の組み合わせに根ざしていると考えています。第一に、RLEによる自動分類は、固定サイズのヒットリスト（例：トップ100ヒット）よりも頑健で、参照データベースに散見される誤ったラベルのタンパク質の影響を最小化するのに役立つ可能性があります。第二に、ContScoutによってコンティグが削除マークされた場合、そこにコードされた曖昧なタンパク質も削除されるため、感度が向上する可能性があります。一方、宿主の染色体に組み込まれた水平的獲得遺伝子は、その染色体／スカフォールドにコードされるタンパク質の大半が宿主として分類されるため、ContScoutでは廃棄されない可能性がある。

我々は、ContScoutがConterminatorとBASTAという最近のタンパク質空間でのクリーニングツールを大きく凌駕することを見いだした。例えば、A. zonatus 51において手動で汚染フラグを立てたタンパク質をContScoutは全て同定したが、ConterminatorとBASTAはそれぞれ64%と91%しか同定しなかった。BASTAとConterminatorの感度低下は、汚染生物（またはその近縁種）が参照データベースに存在することを暗黙の前提としている検索ロジック（つまり、デフォルトで厳密に高く設定された固定類似度閾値を使用）に起因すると仮定している。そのため、ContScoutに実装された、より動的で高感度な検索エンジンが正当化されると考えています。

一方、ContScoutの限界は、N50値の低いドラフトゲノム（すなわち、小さなコンティグを持つ断片的なアセンブリ）に対する判断、サンプル数の少ないグループ（例えば原生生物）内のスクリーニング、およびキメラコンティグ（後者は存在するとはいえ、おそらくまれである65、66）にあると思われる。現在のContScoutの実装は、菌類、植物、原核生物などの大きな分類群におけるタンパク質レベルの汚染検出に焦点を当てているが、その検索ロジックは、より細かい分類学的スコアリング、DNA配列、原核生物分類群間の検索に簡単に拡張することが可能である。後者は原核生物の参照ゲノムが広く利用可能であることから現実的であるが、同じ真核生物界に属する別の分類群による汚染の評価は、いくつかの真核生物群のゲノムの少なさによって制限されているのが現状であろう。そのため、ContScoutの真核生物ゲノムからのヒトへの汚染検出能力を向上させるためには、より細かい分類学的スコアリングを使用することが正当化されます。

ContScoutを使用して、844の公開された真核生物ゲノムをスクリーニングしたところ、様々な生物、特にバクテリアと真菌による汚染が広範囲に渡っていることが分かりました。また、Conterminatorは、使用するデータベース構成（G844単独またはG844とUniRef100を統合したスクリーニング）により、327〜14,148の汚染タンパク質を同定しました。これらの数字は、参照配列データベース67や（メタ）ゲノム12,36,68-70における汚染に関する過去の報告と一致しているが、我々の目録では、様々な新しいパターンが浮き彫りになった。まず、汚染されたタンパク質の数は3桁に及び、ほんの一握りのタンパク質から14,000個以上にも及び、極端な場合には汚染されたゲノムから汚染された生物のタンパク質レパートリーを完全に差し引くことが可能であった14,15。また、汚染タンパク質をコードするスキャフォールドのサイズは1Mbに達しました（A. zonatus）。このような汚染深度の多様性は、固定パラメータ（コンティグ長13、類似度閾値13,48、ヒットリスト41など）を使用するツールに課題をもたらし、ContScoutが採用している相対的カットオフフリー手法を正当化するものである。第二に、汚染生物の分類学的分布は、共生生物、寄生虫、食物源、または常在菌としての微生物の一般的な生活様式を反映している。先行研究では、細菌が一般的な汚染生物として報告されているが8、今回の解析では、植物や後生動物との多様な関連性からか、真菌も頻繁に汚染生物として浮上した。最後に、真核生物844種のゲノムアノテーションは、すべての真核生物のスーパーグループと系統をカバーしており、比較解析のためのゴールドスタンダードリソースを形成することができると期待される。

メタゲノム研究およびゲノムの機能的解釈における汚染の影響は非常にわかりやすい41,65が、進化ゲノミクスの文脈では汚染が引き起こすバイアスはあまり検討されていない。このような研究は、過去にさかのぼって主要な放射性生物のゲノムの青写真を特定することが期待されている。外来タンパク質は遺伝子ファミリーの起源を木の根元に押しやり、結果として祖先の遺伝子内容を過大評価し、大量の遺伝子損失を誘発する。この効果は、データセットに複数の汚染された種が存在する場合に相加的に現れ、その結果、古代のノードに向かってますます偏った推定を行うことになった。これは、動物、植物53やLECA26などのいくつかのグループにおける祖先遺伝子含有量に関する最近の経験的研究で推測されたように、非常に複雑な祖先ゲノムの印象を与える可能性がある。最近の報告では、不完全なゲノムアノテーションも遺伝子喪失の推定を膨らませることがあることが示された71。しかし、その場合、過剰な喪失は木全体にランダムに分布し、ほとんどが末端の枝に影響するのに対し、汚染によってもたらされた過剰喪失では偏りの分布が大きく異なり、ほとんどが深い枝に影響し、数倍の過大評価を引き起こすことが示された。

我々は、初期の真核生物のノードをケーススタディとして、汚染が祖先遺伝子量の推定に与える影響を評価した。これまでの研究では、LECAは少なくとも4,00026、10,00072あるいは12,00073の遺伝子を持つ複雑な生物であり、複雑な細胞骨格系や有性生殖など、いくつかの重要な真核生物の形質をすでに持っていたと推測された26,74-77。

我々の研究は、LECAが約8,700の遺伝子を持つことを示唆したが、ゲノム選択がLECAのゲノムの複雑さの推定に重大な影響を与え、その機能レパートリーの過大評価や異種機能の推定につながる可能性があることも示している。これらの結果は、LECAのゲノムが複雑であることと矛盾しないが、同時に祖先遺伝子量の推定におけるバイアスの原因として、汚染を考慮することに注意を喚起する。

以上のことから、系統樹研究において、複雑な祖先ゲノムの誤った推定、遺伝子ファミリーの誤った初期起源の推定、損失の過大評価は、汚染と密接に関係している可能性があることが示唆された。これらは、アノテーションエラー71や認識されていないHGT76などのバイアスの原因と組み合わさり、祖先遺伝子の内容の誤った推測につながり、進化の過程に対する我々の認識に影響を与える可能性がある。ContScoutと今回紹介した解析により、高品質なゲノムの蓄積が促進され、ゲノムデータに基づく生命の進化を再構築するための進化ゲノミクス研究が向上することが期待される。

研究方法
G844データセットの選択
公開データベース（JGI MycoCosm5, ENSEMBL78, Genbank79）から、動物341種、菌類272種、植物129種、その他の真核生物102種からなる計844種の公開ゲノムをダウンロードし、幅広い汚染スクリーニングを実施した。同一遺伝子のアイソフォームが複数存在する場合は、最も長いものを選んで解析した。本研究に含まれるゲノムを補足表3にまとめた。データ収集日平成31年7月。

G36データセットの選定
祖先ゲノム再構成に対する汚染の影響を評価するために、5つの細菌、8つの動物、4つの真菌、7つの植物、および12の他の真核生物を包含する36ゲノムデータセットがコンパイルされました。このデータセットには、Aspergillus zonatus, Bombus_impatiens, Caenorhabditis remanei, Dictyostelium purpureum, Drosophila bipectinata, Drosophila obscura, Medicago truncatula, Naegleria gruberii, Pyrus x bretschneideri, Quercus suber の10ゲノム（28～1265個の汚染タンパク質）を含んでいた。汚染されたゲノムは、汚染のない関連ゲノムとマッチングさせ、汚染が頻繁に発見される主要な真核生物の系統を代表するように選択された。

ドメイン解析
G844 データセットでは、Interproscan v5.44.79.080 を用いてタンパク質のドメイン検索を行った。細菌特異的ドメインは、シードアラインメント内の細菌配列の比率に基づいて、Pfamデータベース（Mistry et al, 2021; v 35.0）から抽出した。シードアラインメント中に95%以上バクテリアの配列があるドメインをバクテリアとした。菌類特異的なドメインを収集するために、IPRアノテーションとともにUniprotKBデータベースをダウンロードした。ドメインは、関連するUniProtKBタンパク質の少なくとも95％が菌類に由来する場合、菌類特異的であるとみなされました。

ContScoutの実行パラメータ
ContScoutの実行は、Dockerイメージh836472/contscout_avx2を使用して実施された。参照データベースとしてUniref100データベース（リリース2022_1）を選択し（-d uniref100）、検索エンジンとしてMMSeqsを使用し（-a mmseqs）、検索感度を「very fast」（-s 2）に設定しました。最小配列同一性閾値は20％(-p 20)に設定された。高次分類群（すなわち、古細菌、細菌、植物、真菌、動物、その他の真核生物、以下HLTと呼ぶ）からの汚染はすべてスクリーニングされた（-x all）。

合成データに対するContScoutの性能評価
G36 データセットから汚染のない 17 種類のゲノム（細菌 5 種、動物 4 種、真菌 3 種、植物 3 種、その他の真核生物 2 種）を収集し、ContScout の汚染/宿主分類性能を評価しました。汚染されたゲノムは、「ソース」ゲノムと「レシピエント」ゲノムのペア間でタンパク質を転送することによって人工的に作成され、ソースとレシピエントゲノムのHLTの非同一の可能なすべての組合せをカバーしました。

各ゲノムペアに対して、100、200、400、800、1,600、3,200個のタンパク質をランダムに選択し、それぞれ1、2、5、10、20個のエイリアンタンパク質を含むランダムな仮想コンティグに割り当て、転送した。6つのスパイクインレベルで、それぞれ100のランダムな複製セットが生成された。その後、ContScoutを人為的に汚染されたデータに対して実行し、タンパク質を宿主と汚染のいずれかに分類した。R82のpROC81パッケージによって計算された曲線下の面積統計は、分類性能を評価するために使用された。

手動でキュレーションしたデータに対するContScoutの性能評価
844ゲノムデータセットには、著者らが手作業でゲノム除染を行い、我々のデータ収集後にクリーンアセンブリ版をリリースした2つのプロジェクト（A. zonatus51とB. impatiens52）が含まれていました。さらに、Martinsonと共同研究者は、腸内共生細菌であるγプロテオバクテリウムのドラフトゲノム15を別途公開し、B. impatiensのアセンブリにおける唯一の汚染源であることを突き止めました。A. zonatusについては、著者らが除去したタンパク質をground truthとして使用した。B. impatiensについては、配列同一性閾値95％、配列カバー率閾値0.6を用いて、公表されている共生生物プロテオームから汚染されたB. impatiensのデータへタンパク質をマッピングし直しました。このようにして、B. impatiensのプロテオームから、汚染の陽性対照となる680の共生体タンパク質を同定した。これらのタンパク質セットを用いて、ContScoutの性能をConterminatorやBASTAの性能と比較した。

Q. suberのプロテオームは、UniprotKBデータベース内で菌類に特異的であることが判明したInterproドメインを用いて、菌類の混入の有無を手動でスクリーニングした。その結果、Q. suberのプロテオームには含まれない可能性が非常に高い560のタンパク質配列が同定されました。これらの強力なQ. suber汚染物質候補を用いて、ContScout、Conterminator、BASTAの感度を比較したところ、ContScoutはQ. suber汚染物質候補の一つであることを確認した。

ContScoutとConterminatorの大規模比較
13と同様のConterminatorスクリーニングを行うために、844GデータセットとUniRef100データベース（リリース2022_01）を結合した。タンパク質配列が両方のソースに存在する場合、冗長性は844ゲノムセットからのコピーだけを残すことによって解決された。Conterminator は、デフォルトのパラメータを使用して、"protein" モードで実行されました。844-ゲノムセットのタンパク質は、比較した2つのツールのヒットリストにしたがって、4つのクラスに分類された。1.はどちらのツールでもタグ付けされていない、2.は両方のツールでタグ付けされている、3.はConterminatorのみでタグ付けされている、4.はContScoutのみでタグ付けされている。

各クエリについて、UniRef100データベースとのアラインメントを行い、各クエリで最もスコアの高い10個のヒットを保持した。クエリタンパク質と同じ高次分類群（HLT）からのヒットの比率を分類学的支持の指標として計算し、各結果クラスについて個別に可視化した。G36データセットでは、ContTerminator（4）またはContScout（142）のオルソグループ情報と種樹のいずれかによってのみ汚染とマークされた合計146個のタンパク質が利用可能であったため、検証として、遺伝子ファミリー系統内でのこれらのタンパク質の位置を手動で検査しました。

古代ゲノムの再構成と遺伝子コピー数の推定
G36データセットを用いて祖先ゲノムを再構築するために、公表されているパイプラインに従った。そのパイプラインは、入力ゲノムで同定されたタンパク質ファミリーのそれぞれについて種樹と調整済み遺伝子樹を利用するものである22、53、55。種樹の推定には、BUSCO37 v3 HMMプロファイルを使用して、除染されたG36データセットから428の保存された単一コピー候補タンパク質を収集しました。次に、MMSeqsを適用して、タンパク質間のall versus allタンパク質類似性ネットワークを計算し、hipMCL83を用いて、インフレーションパラメータI=2でマルコフクラスタリングを行い、タンパク質ファミリーを同定した。予測されたタンパク質ファミリーは、保存された単一コピーのものだけを残して手動でフィルタリングされた。Mafft (v7.40784) の "--auto" オプションを用いて、各シングルコピータンパク質ファミリーについて多重配列アライメントを行った。TrimAl85 (parameters: "-gt 0.95")を用いて非情報的な部分や整列不良の部分を除去し、得られたトリムアライメントを連結して428のタンパク質ファミリーと172,083文字のスーパーマトリクスを作成した。RAxML 8.2.1286を使用して、タンパク質進化のPROTGAMMALGモデルの下で最尤種樹を推論した。このモデルは遺伝子ごとに分割された。

祖先ゲノム再構成における汚染の影響を評価するため、G36コレクションを基に一連の準汚染データセットを作成し、各データセットには10種の汚染ゲノムのうち1種のみの汚染を保持した（Aspergillus zonatus, Bombus_impatiens, Caenorhabditis remanei, Dictyostelium purpureum, Drosophila bipectinata, Drosophila obscura, Medicago truncatula, Naegleria gruberii, Pyrus x bretschneideri, Quercus suber) のうち、1つの汚染ゲノムにのみ由来する汚染データを保持するデータセットを作成しました。その後、完全に除染されたバージョンとオリジナルのG36バージョンでデータシリーズを完成させた。このシリーズの各変種について、Orthofinder v2.4.158により、種樹を参照しながらオルソログタンパク質ファミリーを同定した。古代のゲノムの再構築および遺伝子の獲得/喪失イベントは、前述のようにCOMPAREパイプラインを使用して推論された22。汚染されたゲノムの影響は、汚染されたバージョンと清浄なバージョンの間で遺伝子増減数を比較することで判断した。

ソフトウェアの入手方法
ContScoutツールは、Dockerイメージとしてh836472/contscout_avx2リポジトリからダウンロードできます。ContScoutのソースコードは、https://github.com/h836472/ContScout/ で公開されています。

謝辞
本研究は、ハンガリー科学アカデミーのMomentum Program (LP2019-13/2019) および欧州研究会議 (Grant No. 758161) (いずれもLGN) から資金提供を受けて実施されました。本研究は、Facilities Integrating Collaborations for User Science (FICUS) プログラム (proposal: 10.46936/10.25585/60008430) の下で行われ、DOE Joint Genome Institute (JGI) (https://ror.org/04xm1d337) およびNational Energy Research Scientific Computing Center (NERSC) (https://ror.org/05v3mvq14) のリソースを使用しました（DOE Office of Science ユーザー施設は契約番号 DE-AC02-05CH11231 で運営されています）。

参考文献
1.↵Katz, K. et al. Sequence Read Archive: a decade more of explosive growth. Nucleic Acids Research 50, D387-D390 (2022).CrossRefGoogle Scholar
2.ȕNasko, D. J., Koren, S., Phillippy, A. M. & Treangen, T. J. RefSeqデータベース成長がk-merベースの最低共通祖先種同定の精度に影響する。ゲノムバイオロジー 19, 165 (2018).CrossRefPubMedGoogle Scholar
3.↵Robinson, G. E. et al. Creating a Buzz About Insect Genomes.（昆虫ゲノムについての話題を作る）。Science 331, 1386-1386 (2011).FREE Full TextGoogle Scholar
4.↵ゲノム10Kコミュニティオブサイエンティスト。ゲノム10K: このような場合、「ゲノム10K」プロジェクトは、脊椎動物10万種の全ゲノム配列の取得を提案する。J Hered 100, 659-674 (2009).CrossRefPubMedWeb of ScienceGoogle Scholar.
5.↵Grigoriev, I. V. et al. MycoCosm portal: gearing up for 1000 fungal genomes.NucleicAcidsResearch(42),（英語版のみ）。Nucleic Acids Research 42, D699-D704 (2014).CrossRefPubMedWeb of ScienceGoogle Scholar
6.↵S.他 10KP：系統多様なゲノム配列決定計画. ギガサイエンス7, (2018).Google Scholar
7.↵Lewin, H. A. et al. Earth BioGenome Project: 生命の未来のための生命の配列決定。米国科学アカデミー紀要 115, 4325-4333 (2018).Abstract/FREE Full TextGoogle Scholar
8.↵Artamonova, I. I. & Mushegian, A. R. Genome Sequence Analysis Indicates that the Model Eukaryote Nematostella vectensis Harbors Bacterial Consorts.（ゲノム配列解析は、モデル真核生物であるネマトステラ・ヴェクテンシスがバクテリアのコンソートを保有していることを示す）。また、このような研究成果をもとに、「真核生物はどのような生物であるのか？
9.↵Cornet, L. et al. Publicly available cyanobacterial genomesの汚染度に関するコンセンサス評価。PLOS ONE 13, e0200323(2018).CrossRefGoogle Scholar
10.↵Raxworthy, C. J. & Smith, B. T. Mining museums for historical DNA: advances and challenges in museomics.（博物館における歴史的DNAのマイニング：ミューズオミクスの進歩と課題）. Trends in Ecology & Evolution 36, 1049-1060 (2021).Google Scholar
11.Straube, N. et al. 博物館ウェットコレクション標本への古代DNA抽出およびライブラリ構築プロトコルの適用に成功した。分子生態学リソース 21, 2299-2315 (2021).Google Scholar
12.↵Dam, A. R. V., Orizondo, J. O. C., Lam, A. W., McKenna, D. D. & Dam, M. H. V. Metagenomic clustering reveals microbial contamination as an essential consideration in ultraconserved element design for phylogenomics with insect museum specimens.昆虫標本による系統解析のための超保存エレメント設計における本質的な検討事項。Ecol Evol 12, e8625 (2022).Google Scholar
13.↵Steinegger, M. & Salzberg, S. L. Terminating contamination: Large search identifies more than 2,000,000 contaminated entries in GenBank.大規模検索により、GenBankの汚染されたエントリーを特定。ゲノムバイオロジー 21, 115 (2020).CrossRefGoogle Scholar
14.↵Durfee, T. et al. 大腸菌DH10Bの全ゲノム配列：実験室の主力菌の生物学への洞察. Journal of Bacteriology 190, 2597-2606 (2008).Abstract/FREE Full TextGoogle Scholar
15.↵Martinson, V. G., Magoc, T., Koch, H., Salzberg, S. L. & Moran, N. A. Genomic features of a bumble bee symbiont reflect its host environment.（マルハナバチ共生細菌のゲノム特性は宿主環境を反映する。応用・環境微生物学 80, 3793-803 (2014).Abstract/FREE Full TextGoogle Scholar
16.⅛Boothby, T. C. et al. クマムシのドラフトゲノムから広範な水平方向の遺伝子転移を証明。Proceedings of the National Academy of Sciences 112, 15976-15981 (2015).Abstract/FREE Full TextGoogle Scholar
17.↵荒川和彦：クマムシのドラフトゲノムから広範な遺伝子水平伝播を証明する証拠はない。Proceedings of the National Academy of Sciences of the United States of America 113, E3057 (2016).FREE Full TextGoogle Scholar
18.ȕLaurin-Lemay, S., Brinkmann, H. & Philippe, H. 陸上植物の起源は、配列汚染と欠損データの観点から再考された。Current Biology 22, R593-R594 (2012).CrossRefPubMedGoogle Scholar
19.Simion, P., Delsuc, F. & Philippe, H. Paul Simion, Frédéric Delsuc, Herve Philippe.（ポール・シミオン、フレデリック・デルスク、エルヴェ・フィリップ）。ゲノム時代の系統学 2.1:1-2.1:34 (No commercial publisher, 2020).Google Scholar
20.↵Owen, C. L. et al. Detecting and Removing Sample Contamination in Phylogenomic Data（ファイロゲノムデータにおけるサンプル汚染の検出と除去。一例とそのセミ科系統への示唆（Insecta: Hemiptera）. Systematic Biology (2022) doi:10.1093/sysbio/syac043.CrossRefGoogle Scholar
21.↵Eisen, J. A. Phylogenomics: Evolutionary Analysisによる未特性遺伝子の機能予測の向上. このような場合、「遺伝子組換え技術」を活用することが有効である。
22.↵Nagy, L. G. et al. 潜在的相同性と収束的制御進化が酵母の反復出現を支えている. ネイチャーコミュニケーションズ 5, 4471 (2014).Google Scholar
23.⅛Blanchette, M., Green, E. D., Miller, W. & Haussler, D. Reconstructing large regions of an ancestral mammalian genome in silico.（哺乳類祖先ゲノムの大規模領域のインシリコ再構築）. Genome Research 14, 2412-2423 (2004).Abstract/FREE Full TextGoogle Scholar
24.Paps, J. & Holland, P. W. H. Reconstruction of the ancestral metazoan genome reveals an increase in genomic novelty.（先祖メタゾアンのゲノム再構築により、ゲノムの新規性が増加したことが明らかになった。ネイチャーコミュニケーションズ 9, 1730(2018).Google Scholar
25.ȕSacerdot, C., Louis, A., Bon, C., Berthelot, C. & Crollius, H. R. Chromosome evolution at the origin of the ancestral vertebrate genome.（脊椎動物祖先ゲノムの起源における染色体の進化）. ゲノムバイオロジー 19, 166 (2018).CrossRefGoogle Scholar
26.⅛Fritz-Laylin, L. K. et al. The Genome of Naegleria gruberi Illuminates Early Eukaryotic Versatility. このような場合、「真核生物であること」が重要な意味を持つ。
27.Anselmetti, Y., Luhmann, N., Bérard, S., Tannier, E. & Chauve, C. Comparative Genomics, Methods and Protocols. in vol.1704 343-362 (2021).Googleスカラー
28.⅛Vakirlis, N. et al. 祖先の染色体構造と遺伝子レパートリーの再構築から、モデル酵母属におけるゲノム進化の原理を明らかにした。Genome Research 26, 918-932 (2016).Abstract/FREE Full TextGoogle Scholar
29.↵Csuros, M. & Miklos, I. Streamlining and Large Ancestral Genomes in Archaea Inferred with a Phylogenetic Birth-and-Death Model（古細菌の誕生と死に関する系統的モデルによる合理化と大規模な祖先ゲノム）. また、このような研究成果をもとに、研究者間の情報交換を促進し、研究成果の共有化を図る。
30.↵Kiss, E. et al. 比較ゲノム学が明らかにする真菌の菌糸と多細胞の起源. ネイチャーコミュニケーションズ 10, 4080 (2019).Google Scholar
31.↵Huang, X. et al. Ancestral Genomes: a resource for reconstructed ancestral genes and genomes across the tree of life.（祖先ゲノム：生命の木にわたる祖先遺伝子とゲノムの再構築のためのリソース）。Nucleic Acids Research 47, D271-D279 (2019).Google Scholar
32.↵Hiller, M. et al. A "Forward Genomics" Approach Links Genotype to Phenotype using Independent Phenotypic Losses among Related Species.（「フォワードゲノミクス」アプローチ、関連種間の独立した表現型損失を用いた表現型へのリンク）。Cell Reports 2, 817-823 (2012).Google Scholar
33.↵Nagy, L. G. et al.遺伝子-表現型相関進化系統解析による真菌性白色腐朽木材の遺伝的基盤の予測. 分子生物学と進化 34, 35-44 (2017).CrossRefPubMedGoogle Scholar
34.↵Pett, W. et al. メタゾアンの遺伝子内容の系統解析におけるホモロジーとオーソロジーの役割. 分子生物学と進化 36, 643-649 (2019).CrossRefGoogle Scholar
35.↵Hahn, M. W. Bias in phylogenetic tree reconciliation methods: implications for vertebrate genome evolution（系統樹の調整法におけるバイアス：脊椎動物ゲノム進化への示唆）. このような場合、「曖昧さ」を解消することが重要である。
Genome Research 25, 1043-1055 (2015).Abstract/FREE Full TextGoogle Scholar
37.↵Simão, F. A., Waterhouse, R. M., Ioannidis, P., Kriventseva, E. V. & Zdobnov, E. M. BUSCO: assessing genome assembly and annotation completeness with single-copy orthologs.（バスコ：単一コピーオーソログによるゲノムの組み立てと注釈の完全性の評価）. バイオインフォマティクス 31, 3210-3212 (2015).CrossRefPubMedGoogle Scholar
38.↵Low, A. J., Koziol, A. G., Manninger, P. A., Blais, B. & Carrillo, C. D. ConFindr: rapid detection of intraspecies and cross-species contamination in bacterial whole-genome sequence data.（細菌全ゲノム配列データにおける種内および種間汚染の迅速な検出）. PeerJ 7, e6995 (2019).CrossRefPubMedGoogle Scholar
39.↵Ounit, R., Wanamaker, S., Close, T. J. & Lonardi, S. CLARK: Fast and accurate classification of metagenomic and genomic sequences using discriminative k-mers. BMC Genomics 16, 236 (2015).CrossRefPubMedGoogle Scholar
40.↵Eren, A. M. et al. Community-led, integrated, reproducible multiomics with anvi'o.（コミュニティ主導の統合的で再現性のあるマルチオミクス）。ネイチャー・マイクロバイオロジー 6, 3-6 (2021).Google Scholar
41.↵Orakov, A. et al. GUNC: detection of chimerism and contamination in Prokaryotic genomes. Genome Biology 22, 178 (2021).CrossRefGoogle Scholar
42.↵Wood, D. E. & Salzberg, S. L. Kraken: 正確なアラインメントを用いた超高速メタゲノム配列の分類. Genome Biology 15, R46(2014).CrossRefPubMedGoogle Scholar
43.↵Tennessen, K. et al. ProDeGe: a computational protocol for fully automated decontamination of genomes.（プロデジー：ゲノムの完全自動除染のための計算プロトコル）. ISMEジャーナル10, 269-272 (2016).Google Scholar
44.↵Laetsch, D. R. & Blaxter, M. L. BlobTools.ゲノムアセンブリの問い合わせ。ゲノムアセンブリの尋問。F1000Research 6, 1287 (2017).Google Scholar
45.↵Mallet, L., Bitard-Feildel, T., Cerutti, F. & Chiapello, H. PhylOligo: a package to identify contaminant or untargeted organism sequences in genome assemblies.ゲノムアセンブリにおける汚染または非標的の生物配列を特定するためのパッケージ。バイオインフォマティクス 33, 3283-3285 (2017).CrossRefGoogle Scholar
46.⅛Simion, P. et al. A software tool 'CroCo' detects pervasive cross-species contamination in next generation sequencing data.（ソフトウェアツール「CroCo」は次世代シーケンシングデータにおける広範な種間汚染を検出する。BMC Biology 16, 28 (2018).Google Scholar
47.↵Rachtman, E., Bafna, V. & Mirarab, S. CONSULT: Locality-sensitive hashingを用いた正確なコンタミネーション除去. NAR Genomics and Bioinformatics 3, (2021).Google Scholar
BASTA - last common ancestor estimationsを用いた配列と配列ビンの分類。メソッズ・イン・エコロジー・アンド・エボリューション 10, 100-103(2019).Google Scholar
49.⅛Buchfink, B., Xie, C. & Huson, D. H. Fast and sensitive protein alignment using DIAMOND.（DIAMONDを用いた高速・高感度タンパク質アライメント）。ネイチャー・メソッズ 12, 59-60 (2015).Google Scholar
50.↵Steinegger, M. & Söding, J. MMseqs2 enables sensitive protein sequence searching for the analysis of massive data sets.（MMseqs2は巨大なデータセットの解析のための高感度なタンパク質配列検索を可能にする。ネイチャー・バイオテクノロジー 35, 1026-1028 (2017).CrossRefPubMedGoogle Scholar
51.↵de Vries, R. P. et al. Comparative Genomics reveals high biological diversity and specific adaptations in the industrially and medically important fungal genus Aspergillus.比較ゲノム解析により、工業的および医学的に重要な真菌アスペルギルス属の高い生物学的多様性と特異的適応が明らかになった。ゲノムバイオロジー 18, 28 (2017).CrossRefGoogle Scholar
52.↵Sadd, B. M. et al. 原始的な真社会的組織を持つ2つの重要なマルハナバチ種のゲノム. ゲノムバイオロジー 16, 76 (2015).CrossRefPubMedGoogle Scholar
53.⅛Bowles, A. M. C., Bechtold, U. & Paps, J. The Origin of Land Plants Is Rooted in Two Bursts of Genomic Novelty.（陸上植物の起源は、2つのゲノム新奇性に根ざしている）。カレントバイオロジー 30, 530-536.e2 (2020).PubMedGoogle Scholar
54.Guijarro-Clarke, C., Holland, P. W. H. & Paps, J. Widespread patterns of gene loss in the evolution of the animal kingdom.動物界の進化における遺伝子消失の広範なパターン. Nature Ecology & Evolution 4, 519-523 (2020).Google Scholar
55.↵ Fernández, R. & Gabaldón, T. Metazoan Tree of Lifeにおける遺伝子の獲得と喪失. Nat Ecol Evol 4, 524-533 (2020).Google Scholar
56.Thomas, G. W. C. et al. 節足動物における遺伝子内容の進化. ゲノムバイオロジー 21, 15 (2020).CrossRefGoogle Scholar
57.↵Griesmann, M. et al. ファイロゲノミクスで明らかになった窒素固定根粒共生の多重喪失. サイエンス 361, (2018).Google Scholar
58.↵Emms, D. M. & Kelly, S. OrthoFinder: Phylogenetic Orthology inference for comparative genomics. ゲノムバイオロジー20, (2019).Google Scholar
59.Altenhoff, A. M., Glover, N. M. & Dessimoz, C. Inferring Orthology and Paralogy. in 149-175 (2019). doi:10.1007/978-1-4939-9074-0_5.CrossRefGoogle Scholar
60.⅛Chorostecki, U., Molina, M., Pryszcz, L. P. & Gabaldón, T. MetaPhOrs 2.0: Integrated, phylogeny-based inference of orthology and paralogy across the tree of life.（メタファ2.0：統合的な系統学に基づく生命の木にわたるオーソロジーとパラロジーの推定）。Nucleic Acids Research 48, W553-W557 (2020).CrossRefGoogle Scholar
61.↵Enright, A. J. An efficient algorithm for large-scale detection of protein families. このような場合、「このような場合、どのようにすればよいのか？
62.↵Li, L., Stoeckert, C. J. & Roos, D. S. OrthoMCL: Identification of Ortholog Groups for Eukaryotic Genomes.（真核生物ゲノムにおけるオルソロググループの同定）. Genome Research 13, 2178-2189 (2003).Abstract/FREE Full TextGoogle Scholar
63.ȕCornet, L. & Baurain, D. ゲノムデータにおける汚染検出：多ければ良いというものではありません。Genome Biology 23, 60 (2022).CrossRefGoogle Scholar
64.↵Saary, P., Mitchell, A. L. & Finn, R. D. EukCCによるメタゲノム解析から回収した真核生物ゲノムの品質推定。Genome Biology 21, 244 (2020).Google Scholar
65.↵Chen, L.-X., Anantharaman, K., Shaiber, A., Eren, A. M. & Banfield, J. F. Accurate and complete genomes from metagenomes. Genome Research 30, 315-333 (2020).Abstract/FREE Full TextGoogle Scholar
66.↵Mineva, O., Rojas-Carulla, M., Ley, R. E., Schölkopf, B. & Youngblut, N. D. DeepMAsED: evaluating the quality of metagenomic assemblies.メタゲノム解析の品質評価. バイオインフォマティクス 36, 3011-3017 (2020).Google Scholar
67.↵Lupo, V. et al. Reference Sequence Databasesのコンタミネーション（Contamination in Reference Sequence Databases: コンタミネーション（Contamination in Reference Sequence Database）：Dividide-and-Rule Tactics の時期。Frontiers in Microbiology 12, (2021).Google Scholar
68.↵Lu, J. & Salzberg, S. L.ドラフトゲノムのデータベースからコンタミネーションを除去する. PLOS Computational Biology 14, e1006277 (2018).Google Scholar
69.Francois, C. M., Durand, F., Figuet, E. & Galtier, N. Prevalence and Implications of Contamination in Public Genomic Resources.公共ゲノムリソースにおける汚染の有病率とその意味: このような場合、「G3 Genes|Genom|Genom(ゲノム・ゲノム)」と呼ばれる。G3 Genes|Genomes|Genetics 10, 721-730 (2020).Google Scholar
70.↵Aylward, J., Wingfield, M. J., Roets, F. & Wingfield, B. D. A high-quality fungal genome assembly resolved from a sample accidentally contaminated by multiple taxa. BioTechniques 72, 39-50 (2022).Google Scholar
71.↵Deutekom, E. S., Vosseberg, J., van Dam, T. J. P. & Snel, B. Measuring the impact of gene prediction on gene loss estimates in Eukaryotes by quantifying falsely inferred absences. PLOS Computational Biology 15, e1007301 (2019).Google Scholar
72.↵Deutekom, E. S., Snel, B. & Dam, T. J. P. van. 真核生物の基盤で定義された系統学的パターンを用いたオーソロジー手法のベンチマーキング。Briefings in Bioinformatics 22, (2021).Google Scholar
真核生物の細胞の複雑さの起源を古代の重複でタイミングを計る 73.↵Vosseberg, J. et al. ネイチャー・エコロジー＆エボリューション 5, 92-100 (2021).Google Scholar
74.↵Margulis, L., Chapman, M., Guerrero, R. & Hall, J. The last eukaryotic common ancestor (LECA)．原生代の耐空性スピロヘータから細胞骨格運動性を獲得した。米国科学アカデミー紀要 103, 13080-13085 (2006).Abstract/FREE Full TextGoogle Scholar
75.Koumandou, V. L. et al. 分子古生物学と最後の真核生物共通祖先における複雑性。Critical Reviews in Biochemistry and Molecular Biology 48, 373-396 (2013).CrossRefPubMedWeb of ScienceGoogle Scholar
76.↵Eme, L., Spang, A., Lombard, J., Stairs, C. W. & Ettema, T. J. G. Archaea and the origin of eukaryotes.の項を参照。ネイチャー・レビューズ・マイクロバイオロジー 15, 711-723 (2017).CrossRefPubMedGoogle Scholar
77.↵Koonin, E. V. The Incredible Expanding Ancestor of Eukaryotes. Cell 140, 606-608 (2010).CrossRefPubMedWeb of ScienceGoogle Scholar
78.↵Cunningham, F. et al. Ensembl 2022. Nucleic Acids Research 50, D988-D995 (2022).Google Scholar
79.↵Clark, K., Karsch-Mizrachi, I., Lipman, D. J., Ostell, J. & Sayers, E. W. GenBank.の項参照。Nucleic Acids Research 44, D67-D72 (2016).CrossRefPubMedGoogle Scholar
80.↵Jones, P. et al. InterProScan 5: ゲノムスケールでのタンパク質機能分類. Bioinformatics (Oxford, England) 30, 1236-40 (2014).CrossRefPubMedWeb of ScienceGoogle Scholar
81.⅛Robin, X. et al. pROC: an open-source package for R and S+ to analyze and compare ROC curves.ROCカーブを分析し比較するためのRとS+のオープンソースパッケージ。BMC Bioinformatics 12, 77 (2011).CrossRefPubMedGoogle Scholar
82.↵R_Core_Team. R: A Language and Environment for Statistical Computing. Preprint at https://www.r-project.org (2022).Google Scholar
83.↵Azad, A., Pavlopoulos, G. A., Ouzounis, C. A., Kyrpides, N. C. & Buluɟ, A. HipMCL: a high-performance parallel implementation of the Markov clustering algorithm for large-scale networks.は、大規模ネットワークにおけるマルコフクラスタリングアルゴリズムの高性能並列実装です。Nucleic Acids Research 46, e33-e33 (2018).CrossRefGoogle Scholar
84.↵Katoh, K. & Standley, D. M. MAFFT Multiple Sequence Alignment Software Version 7: Improvements in Performance and Usability.（MAFFTマルチプルシーケンスアライメントソフトウェアバージョン7：性能と使いやすさの改善）. また、このような場合にも、「痒いところに手が届く」「痒いところに手が届く」「痒いところに手が届く」「痒いところに手が届く」「痒いところに手が届く」「痒いところに手が届く」「痒いところに手が届く」。
85.↵Capella-Gutierrez, S., Silla-Martinez, J. M. & Gabaldon, T. trimAl: a tool for automated alignment trimming in large-scale phylogenetic analysis. このような場合、「このような場合、どのようにすればよいのか？
86.↵Stamatakis, A. RAxML version 8: a tool for phylogenetic analysis and post-analysis of large phylogenies. バイオインフォマティクス 30, (2014).Google Scholar

ゲノムの汚染を除去することで、祖先ゲノムの進化解析から系統的バイアスを排除することができる

いいなと思ったら応援しよう！