amoA遺伝子のプローブキャプチャーエンリッチメントシーケンスによる多様なアンモニア酸化性古細菌および細菌集団の検出の向上

哉百名

2024年11月19日 17:07

分子生態学リソース

アーリービューe14042

リソース記事

オープンアクセス

amoA遺伝子のプローブキャプチャーエンリッチメントシーケンスによる多様なアンモニア酸化性古細菌および細菌集団の検出の向上

https://onlinelibrary.wiley.com/doi/10.1111/1755-0998.14042

平岡聡,伊地知稔,竹島浩彦,熊谷洋平,楊清嘉,真壁陽子 , 小林陽子,福田秀樹,吉澤進,岩崎渉,小暮和弘,塩崎卓平

初版発行：2024年11月18日

https://doi.org/10.1111/1755-0998.14042

ハンドリングエディター：Isheng J. Tsai

資金提供 本研究は、日本学術振興会（JP19H04263、JP20K15444、JP21H03592、JP22H03716、JP22H04925、JP23H05411）、科学技術振興機構（JPMJCR11A3、JPMJCR19S2）および文部科学省（JPMXD1521474594）の助成を受けた。

平岡聡と伊地知稔は本研究に等しく貢献した。

研究概要

セクション

要旨

アンモニアモノオキシゲナーゼサブユニットA（amoA ）遺伝子は、様々な生態系における窒素循環に大きく寄与するアンモニア酸化古細菌（AOA）および細菌（AOB）の系統的多様性、空間分布および活性を調べるために用いられてきた。amoAのアンプリコンシークエンシングは広く用いられている方法であるが、「普遍的な」プライマーセットがないため、不正確な結果が得られる。さらに、現在利用可能なプライマーセットは増幅バイアスに悩まされており、深刻な誤解を招く可能性がある。ショットガンメタゲノム解析やメタトランスクリプトーム解析は、増幅バイアスのない代替的なアプローチであるが、異種環境DNA中の標的遺伝子の存在量が低いため、包括的な解析は実現可能なシーケンス深度に制限される。本研究では、ハイブリダイゼーションキャプチャー法を用いたamoA濃縮シーケンスのためのプローブセットとバイオインフォマティクスワークフローを開発した。メタゲノム模擬群集サンプルを用いた我々のアプローチでは、組成変化の少ないamoA遺伝子を効果的に濃縮し、増幅法やメタオミクスシーケンス解析を凌駕した。メタトランスクリプトミクスによる海洋サンプルの解析の結果、AOAまたはAOBに分類される80のOTU（operational taxonomic unit）を予測した。検出されたすべてのOTUに対するマップリード比率は、非捕捉サンプル（0.05±0.02％）よりも捕捉サンプル（50.4±27.2％）の方が有意に高く、この手法の濃縮効率の高さを実証した。また、従来の手法では困難であったAOA生態型の空間的多様性を、高い感度と系統的解像度で明らかにした。

1 はじめに

硝化は、アンモニア酸化と亜硝酸酸化の2段階プロセスである。アンモニア酸化は、アンモニアモノオキシゲナーゼサブユニットA（amoA ）遺伝子を利用するアンモニア酸化古細菌（AOA）とバクテリア（AOB）によって駆動される律速過程である。このプロセスは、一次温室効果ガスである亜酸化窒素の排出を含む窒素循環の基本であり（Fowler et al.2013; Niu et al.2016 ）、土壌、温泉、淡水、河口、堆積物、海洋生態系など様々な生態系で起こっている（Isobe and Ohte2014; Lehtovirta-Morley2018; Monteiro, Séneca, and Magalhães2014; Takai2019 ）。地球上のアンモニア酸化過程のかなりの割合が、AOAsを介して海洋で起こっていると考えられている（Hutchins and Capone2022; Voss et al.）海洋のAOAは、水柱クラスターA（WCA）、水柱クラスターB（WCB）、Nitrosopumilus maritimus-likeクラスター（NMC、NPMとして知られる）の3つの生態型に大別される（Beman, Popp, and Francis2008; Francis et al.2005; Santoro, Richter, and Dupont2019 ）。WCAとNMCは富栄養帯直下に多く生息するのに対し、WCBは深海に生息することが報告されている（Beman, Popp, and Francis2008; Santoro, Richter, and Dupont2019; Shiozaki et al.）広範なAOAamoA遺伝子の系統樹に基づき最近更新された分類学（Alves et al.2018 ）によると、WCA、WCB、NMCはそれぞれNitrosopumilales（NP）目のクレードNP-ε-2、NP-α-2.2.2.1、NP-γ-2.1に相当する。一般にAOAはアンモニアの酸化に大きく寄与しているが、AOBは相対的な存在量が少なくても、基質利用率の高い環境（農業土壌など）ではAOAと相性が良い（Jia and Conrad2009; Prosser et al.） AOBのうち、完全アンモニア酸化剤（comammox）は、単独で2段階の硝化プロセス全体を実行することができ、陸域と沿岸域の両方で発見され、地球規模で硝化の重要な貢献者と考えられている（Daims et al.）

amoA遺伝子のアンプリコンシークエンシングは、原核生物群集のAOAsとAOBsを特徴付けるために一般的に使用されるアプローチである。この方法論は、培養せずにamoAを選択的に増幅するポリメラーゼ連鎖反応（PCR）に依存している。現在、amoAは微生物学において16SリボソームRNA（rRNA）遺伝子に次いで2番目に頻繁に塩基配列が決定されるマーカー遺伝子であり（Alves et al.2018 ）、海洋を含む様々な環境における多様なAOAとAOBの系統的多様性と空間分布を調べることができる（表S1 ）（Beman, Popp, and Francis2008; Francis et al.）しかし、PCRはすべてを網羅する技術ではない。まず、amoA遺伝子のコード配列に保存領域がないため、すべてのAOAおよびAOBに対応する普遍的なプライマーセットを設計することは困難である。異なる標的クレードを持つ多くのプライマーセットが提案されているが（Beman, Popp, and Francis2008; Coolen et al.2007; Francis et al. 2007; Mosier and Francis2011; Pester et al.2012; Pjevac et al.2017; Purkhold et al.2000; Rotthauwe, Witzel, and Liesack1997; Sintes et al.2013; Wuchter et al.2006; Yakimov et al.2011 ）、AOAとAOBの両方をカバーする真の「普遍的」プライマーセットはまだ開発されていない。第二に、使用されるプライマーセットの標的クレードの間であっても、PCR増幅は、プライマーと標的遺伝子配列のミスマッチ、変性およびアニーリングステップの効率の違い、PCRバイアスと呼ばれるキメラ増幅のために、しばしば予期せぬ結果を引き起こす（Jolinda et al.）例えば、最も頻繁に使用されるamoAプライマーセットであるArch-amoAF/R (Francis et al.2005)は、多数のAOAamoA配列とのミスマッチを招き、さらに全AOAの過小評価につながる(Ijichi, Itoh, and Hamasaki2019; Tolar, King, and Hollibaugh2013)。これらを総合すると、現在のamoAアンプリコンシーケンスアプローチは歪んだ結果をもたらし、下流の解析の誤った解釈につながる（Dechesne et al.2016; Ijichi and Hamasaki2017; Shimomura et al.）

ショットガンメタゲノミクスとメタトランスクリプトミクスは、PCR増幅を行わずにコミュニティ全体のシーケンスリードを生成するハイスループットシーケンス技術を採用している。これらの戦略により、多様な遺伝子配列を解析して、各対象遺伝子の本来の系統と発現量を推定することができ、分類学的多様性と活性の全体像が明らかになった（Hiraoka, Yang, and Iwasaki2016 ）。しかし、標的遺伝子は通常、不均一なDNAサンプル中に低濃度で存在する。土壌(Bahram et al.2022; Bannert et al.2011; Ding et al.2020; Han et al.2013; Marusenko et al.2013)、廃水 (Spasov et al.2020; Wang et al.2021; Zhang et al.2015)、河口 (Hollibaugh et al. 2011 ）、および海水（Christman et al.2011 ）で定量的リアルタイムPCR（qPCR）を用いて解析した結果、土壌サンプルのamoA遺伝子に割り当てられたメタゲノミックリードは0.001%未満、メタトランスクリプトミックリードは0.05%未満であった（Bahram et al.）この低濃度では、関心のある遺伝子のコミュニティ全体の解析は、実現可能なシーケンス深度に制限される。

ターゲット遺伝子濃縮は、PCR増幅とメタオミクスの限界を克服する革新的なアプローチである。この方法は、溶液ハイブリッド選択（SHS）に依存して、異種DNAから目的の遺伝子を回収してシーケンスする。ハイブリダイゼーションは、設計されたプローブと遠方の標的配列とのミスマッチを許容し、未知の遺伝子を含む多様な遺伝子の大規模なプールを調査することを可能にする（Hedtke et al.）ハイブリダイゼーションキャプチャー実験は高い再現性を示した (Chilamakuri et al.2014; Gnirke et al.2009; Hernandez-Rodriguez et al.2018; Mamanova et al.2010)。野外研究において、この方法はバイオマーカーとして様々な遺伝子に適用されており、メチルコエンザイムMレダクターゼサブユニットA（Denonfoux et al. 2015 ）、Dehalococcoidia由来の還元的脱ハロゲナーゼ、挿入エレメント、仮説タンパク質（Biderre-Petit et al.2016 ）、ベンジルスクシネート合成酵素αサブユニット（Ranchou-Peyruse et al. 2017 ）、リンデン分解酵素（Gasc and Peyret2018 ）、CH3Cl脱ハロゲナーゼ（Jaeger et al.2018 ）、ヘキサクロロシクロヘキサン分解酵素（Gasc and Peyret2017 ）、植物由来病害抵抗性遺伝子（Jupe et al. 2013)、16S rRNA (Beaudry et al.2021; Biderre-Petit et al.2016; Cariou et al.2018; Gasc and Peyret2018; Günther et al.2022; Sara et al.2020)、18S rRNA (Günther et al.2022)。また、無機窒素およびメタン循環遺伝子のプローブ捕獲濃縮を用いたターゲットメタゲノミックシーケンスを試みた先駆的な研究もあり、従来のアンプリコンやショットガンメタゲノムアプローチよりも多くのメタゲノム配列変異体を産生し、古細菌amoA遺伝子のより深い評価を可能にした（Siljanen et al.）しかし、我々の知る限り、amoAプローブ捕捉濃縮シーケンスに焦点を当てた研究は、窒素循環において非常に重要であるにもかかわらず、系統的多様性の正確な解析のために、ほぼ全長配列の再構築と運用分類単位（OTU）のde novo同定を行った例はない。

ここでは、メタゲノムおよびメタトランスクリプトームサンプル中のamoA遺伝子を効率的に解析するために、プローブキャプチャー濃縮シーケンス法を開発した。プローブとハイブリダイズする新規遺伝子を含む多様なamoA遺伝子を網羅するため、公開データベースから検索した広範な原核生物のamoA遺伝子配列を用いてキャプチャープローブを設計した。人工的なモックコミュニティーを用いた技術的検証の結果、深刻な組成の乱れを伴わない、このアプローチの高い効率が示された。沿岸域から外洋域まで、富栄養層から中深層で採取された海洋サンプルをメタトランスクリプトーム解析した結果（図S1、表S2）、従来のショットガンシーケンスやアンプリコンシーケンスアプローチと比較して、卓越した性能が示された。解析の結果、AOA生態型の空間分布は、水柱の垂直方向と陸地からの距離によるニッチ分離で説明できることも示され、海洋環境における窒素循環に関する知見が得られるとともに、amoA濃縮シーケンスアプローチの利点が浮き彫りになった。

2 材料と方法

2.1 キャプチャープローブの設計

amoA遺伝子は銅膜モノオキシゲナーゼ（CuMMO）スーパーファミリーに属し、異なる基質（アンモニア、メタン、プロペン、エテン、ブタンなど）を受容する、連続的に近いが機能的に異なる複数の遺伝子（amoA、pmoA、pxmA、bmoA、peoA、etnA、pamA、AlkB、bmoXなど）から構成される。CuMMOは複雑な系統を示すため、配列の類似性に基づいて区別することは困難である（Alves et al.）広範囲のamoA遺伝子をカバーする捕捉プローブを設計するために、多様なCuMMO遺伝子を捕捉するプローブを設計し、下流の配列解析のために潜在的なamoA遺伝子を手動で選択できるようにした。初期データベースとして、NCBIデータベースから検索した、幅広い系統群にまたがる、十分に注釈付けされた20の代表的なCuMMOサブユニットA遺伝子を手動で収集した（DataS1 ）。配列には、すべての主要なAOAおよびAOBグループ（Thaumarchaeota、Betaproteobacteria、Gammaproteobacteria、Nitrospirota）の4つのamoA遺伝子が含まれる。初期データベースを用いて、29,683の配列が、ローカルサーバー上でカットオフe-値≦1E-5でblastn検索（Camacho et al.2009 ）を用いてNCBI ntおよびenv_nt（2016年3月）から素朴に検索され、195のamoA遺伝子配列がGenBankから手動で収集された（データS2 ）。合計29,878のCuMMO遺伝子配列（CuMMO遺伝子配列データベースと呼ぶ）を用いて、タイリング戦略を用いて100merプローブを設計した。プローブデザインが複数の遺伝子に共有される配列を過剰に捕捉するのを防ぐため、重複配列は1コピーを除いてすべて除去した。さらに、メタトランスクリプトームサンプルのリクルート力を高めるため、Ribosomal Database Project (RDP) データベース (Cole et al.2014) で16S rRNA遺伝子との類似性を示す配列を除去した。最終的なプローブセットは、CuMMO配列の全ヌクレオチドの97.06%を占めた。プローブの設計と製造はRoche NimbleGen（米国ウィスコンシン州マディソン）が行い、現在はRoche Diagnostics（スイス、ロートクロイツ）に移管されている。

2.2 模擬サンプルの構築とDNAサンプルの調製

プローブ捕獲濃縮法の条件と効率を調べるために、異なるamoA遺伝子をコードする6つのクローニングベクターの人工混合物を調製した。つのAOA系統と3つのAOB系統から6つのamoA配列を選択した： Nitrosopumilus maritimus SCM1T(CP000866),Candidatus(Ca.) Nitrosopelagicus brevis CN25 (CP007026), Thaumarchaeota archaeon SCGC AAA007-O23 (ARWO00000000),Nitrosomonas europaeaATCC19718T(AL954747),Nitrosococcus oceaniATCC19707T(NC_007484) andCa. Nitrospira inopinata ENR4 (LN885086)。N. maritimusSCM1、Ca. maritimus SCM1、Ca. Nitrospelagicus brevis CN25およびThaumarchaeota archaeon SCGC AAA007-O23は、それぞれNP-γ-2.1、NP-ε-2およびNP-α-2.2.1エコタイプに属し、Ca. Nitrospira inopinata ENR4はコマモックスのメンバーである。6つの配列はEurofins Genomics社（東京、日本、大田）により人工的に合成され、pTAKN-2ベクター（東京、日本、文京、バイオダイナミクス研究所）にクローニングされた。各クローニングベクターは、大腸菌DH5αコンピテントセル（タカラバイオ、草津、滋賀、日本）に製造者の指示に従って形質転換した。大腸菌はカナマイシンを添加したLB液体培地で培養し、PureLink HiPure Plasmid FP (Filter and Precipitator) Maxiprep Kit (Invitrogen, Carlsbad, CA, USA)を用いて、メーカーの指示に従ってクローニングベクターを抽出した。プラスミド DNA の質と量は、NanoDrop 2000（Thermo Fisher Scientific, Wilmington, DE, USA）と Microplate Reader SH-9000Lab（Corona Electric, Hitachinaka, Ibaraki, Japan）を用い、Quant-iT PicoGreen dsDNA Assay Kit（Invitrogen）を用いて、製造元の指示に従って測定した。

2.3 海水サンプリングとRNAサンプルの調製

海水試料は，2016年3月にR/V新生丸のクルーズKS16-01において，大槌（OT）および女川（ON）トランセクトライン（各湾内の沿岸域から遠洋域まで）に沿って，それぞれ5地点および6地点から採取した（表S1および図S1 ）。サンプリング地点は温帯西部北太平洋に位置している。日本の排他的経済水域における遠征のためのサンプリング許可は、本研究が国内地域を中心としたものであり、絶滅危惧種や保護種を含まないため、必要なかった。海水は、表層（海面下0m[mbsl]）からバケツで、または33～500mbsl（表層から中深層）の深層でニスキン瓶サンプラー（General Oceanic社、米国フロリダ州マイアミ）を用いて採取した。サンプリング層の水温と塩分濃度は、SBE9plus CTDシステム（Sea-Bird Scientific, Bellevue, WA, USA）を用いて測定した。分子実験では、約8Lの海水を0.22μmのSterivex-GP圧力フィルターユニット（Millipore, Billerica, MA, USA）でろ過した。フィルターを直ちに2 mLのRNAlaterStabilisation Solution（Thermo Fisher Scientific）に浸し、4℃で12時間浸漬した。その後フィルターは、その後の分子実験まで-30℃で保存した。栄養分析用のサンプルも10mLのアクリルチューブに二重に採取した。

mirVana miRNA Isolation Kit（Thermo Fisher Scientific）を用いて陸上でフィルターからRNAを抽出し、TURBODNA-freeKit（Thermo Fisher Scientific）を用いて精製し、RNeasy MinElute Cleanup Kit（QIAGEN, Hilden, Germany）を用いて濃縮した。RNAの質と量は、QiantiFluor RNA System（Promega, Madison, WI, USA）を用いて、Nanodrop 2000とQuantus蛍光光度計を用い、製造元の指示に従って測定した。硝酸塩（NO3- ）、亜硝酸塩（NO2- ）、アンモニウム（NH4+ ）およびリン酸塩（PO43 - ）の濃度は、前述（Fukuda et al.）使用したシステムの検出限界は、NO3-、NO2-、NH4+およびPO43-の測定で、それぞれ0.05、0.02、0.1および0.02 μMであった。

2.4 ライブラリー構築、プローブ捕捉および塩基配列決定

SeqCap EZ Developer Kit（Roche NimbleGen）またはSeqCap RNA Developer Enrichment Kit（Roche NimbleGen）に従って、シーケンスライブラリー調製とプローブキャプチャー濃縮を行った。ライブラリー構築の前に、2100 Bioanalyser（Agilent Technologies）とRNA Pico Kit（Agilent Technologies）を用いてすべてのRNAサンプルの品質を確認し、重度のRNA分解が観察されないことを確認した。DNAとRNAは、Covaris（米国マサチューセッツ州ウォバーン）を用いた超音波処理と、SeqCapキットに従った二価陽イオンへの曝露により、200 bpのサイズに共有化した。cDNAは、KAPA Stranded RNA-Seq Library Preparation Kit（Roche NimbleGen）を用いてRNAから合成した。その後、KAPA Library Preparation Kit（Roche NimbleGen）およびKAPA Stranded RNA-Seq Library Preparation Kit（Roche NimbleGen）を用いて、インデックスアダプターを有するDNA/cDNAライブラリーを製造元の指示に従って調製した。

プローブキャプチャー濃縮シーケンスでは、SeqCap EZ Reagent Kit Plus（Roche NimbleGen）に従ってSHS法を用いてハイブリダイゼーションキャプチャーを行い、ハイブリダイゼーションキャプチャー回数とキャプチャー後のライゲーション介在PCR（LM-PCR）サイクル数を変更した（下記参照）。プローブキャプチャー濃縮の基本プロトコールは以下の通りである： DNA/cDNAライブラリーは、KAPA HiFi HotStart ReadyMixを用い、公式の説明書に従ってLM-PCR増幅した（捕捉前LM-PCR）：DNAライブラリーでは98℃ 45秒（98℃ 15秒、60℃ 30秒、72℃ 30秒）、サイクル9回、72℃ 1分、cDNAライブラリーでは98℃ 45秒（98℃ 15秒、60℃ 30秒、72℃ 30秒）サイクル11回、72℃ 5分。精製後、等モルのライブラリーを混合し、各分析用のライブラリープールを調製した（詳細は後述）。次に、ライブラリープールの1μgを95℃で10分間変性させ、47℃で16～20時間プローブハイブリダイゼーションに供した。プローブは、SeqCap Capture Beadsにより、47℃で45分間、15分ごとにボルテックスシェイクしながら捕捉された。次に、洗浄後のビーズ結合キャプチャーDNA/cDNAライブラリーを、KAPA HiFi HotStart ReadyMix（ポストキャプチャーLM-PCR）を用いて直接LM-PCR増幅した：DNAライブラリーでは98℃ 45秒（98℃ 15秒、60℃ 30秒、72℃ 30秒）サイクルを20回、72℃ 1分、cDNAライブラリーでは98℃ 45秒（98℃ 15秒、60℃ 30秒、72℃ 30秒）サイクルを20回、72℃ 5分。精製後、増幅ライブラリーの塩基配列を決定した。捕捉前および捕捉後のLM-PCR増幅は、ハイブリダイゼーション捕捉および塩基配列決定にそれぞれ十分な量のDNAを得るために、もともとSeqCapキットの公式説明書に組み込まれていた。

プローブ捕捉濃縮における潜在的なバイアスを評価し、手法を最適化するために、St2ステーションの0 mbslから採取した模擬サンプルと海水サンプルを用いて、さまざまな設定をテストした（表S2 ）。この実験では、プローブ捕捉濃縮の時間をゼロ、1回、2回と変化させ、それぞれ「non-capture」、「single-capture」、「double-capture」設定とした。non-capture設定では、ライブラリーはプローブ捕獲濃縮なしで調製され、偏りのないコミュニティー組成が得られる濃縮なしのショットガンシーケンスを示した。シングルキャプチャーでは、プローブキャプチャー濃縮を1回行った。ダブルキャプチャーでは、1回目と2回目のLM-PCR増幅の組み合わせを変えて、プローブ捕捉濃縮を2回行った（モックサンプルでは5/20、7/14、7/20のサイクル設定、海水サンプルでは5/20と7/14のサイクル設定）。プローブ捕捉濃縮のために、モックサンプルとSt2サンプルのライブラリーをライブラリープールとして混合し、そのうちの1μgを各検査設定でプローブハイブリダイゼーションに供した。例えば、single-capture設定で進行したライブラリープールは、single_Mock-cycle20とsingle_St2-cycle20と名付けられた一対のシーケンスデータセットとなった。

標的遺伝子の希釈効果を評価するため、モックDNAをpTAC-2クローニングベクター（BioDynamics Laboratory）でプールし、amoA遺伝子濃度を変化させた。モックDNAとpTAC-2 DNAのモル濃度比は、2:1000（Mock-copy1e6と命名）、2:10000（Mock-copy1e5）、2:100000（Mock-copy1e4）に調整した。最終濃度は、DNA1ngあたりamoA遺伝子コピー106、105、104にほぼ相当し、amoA遺伝子、pTAKN-2、pTAC-2の長さはそれぞれ653-846、2739、2786bpであった。3つのサンプルのシーケンスライブラリーは上記のように調製した。プローブキャプチャーの濃縮には、3つの等モルライブラリーからなるライブラリープール1μgを使用した。ハイブリダイゼーションキャプチャーは、キャプチャーサンプルを得るためにシングルキャプチャー設定で行ったが、非キャプチャーサンプルの場合はこのステップを行わなかった。Mock-copy1e6、Mock-copy1e5、Mock-copy1e4サンプルの捕捉後LM-PCR増幅をそれぞれ16、18、20サイクル行い、配列決定に十分なDNA量を得た。その後の工程は上記のように行った。

メタトランスクリプトーム海水サンプルについては、各トランセクト（それぞれONとOT）から20と19の等モルcDNAライブラリーをライブラリープールとして別々に混合し、その後ハイブリダイゼーションキャプチャーを行った。モックサンプルを用いた評価では、シングルキャプチャーの設定が、本来の群集構造を反映したシーケンスリードを得るために最適であることが示唆された（結果参照）。したがって、各1μgのライブラリープールは、非キャプチャサンプルとしてではなく、キャプチャーサンプルとしてシングルキャプチャーの設定で進行した。サンプル名は、ライブラリー調製タイプ、サンプリングステーション、水深を表す。例えば、'capture_OT6-200m'は、OT6ステーションから200mbsl層で採取され、プローブ捕捉濃縮法で調製されたサンプルを表し、'non-capture_ON1-B-5m'は、ON1ステーションから海底上5mの層で採取され、プローブ捕捉なしで調製されたサンプルを表す。

ライブラリーのサイズ選択には、GeneRead Size Selection Kit (QIAGEN)を用い、製造元の指示に従って長さ150bp未満のDNA断片を除去した。各プールの最終ライブラリーは、バイオエンジニアリング・ラボ（神奈川県厚木市）で、Illumina MiSeqシーケンスプラットフォーム（Illumina, San Diego, California, USA）を用いてシーケンスした（2 × 300 bp paired end reads）。

2.5 アンプリコンシーケンス

プローブキャプチャー濃縮法およびショットガンシーケンシング法の結果と比較するために、amoAアンプリコンシーケンシングを行った。最も頻繁に使用されるamoAプライマーセット（Arch-amoAF:5′-STAATGGTCTGGCTTAGACG-3′およびArch-amoAR:5′-GCGGCCATCCATCTGTATGT-3′）（Francis et al. メタゲノムMockサンプルと3つのメタトランスクリプトーム海水サンプルはロングリードamoAアンプリコンシーケンス用に選択され、他の34のメタトランスクリプトーム海水サンプルはショートリードアンプリコンシーケンスに供された。

amoAアンプリコンは2段階PCR法で調製した。メタトランスクリプトームサンプルについては、PrimeScript II First-Strand cDNA Synthesis Kit (TaKaRa Bio)を用いてcDNAを調製した。最初のターゲットPCRはKAPA HiFi HotStart ReadyMix PCR Kit (Roche, Basel, Switzerland)を用いて行った。熱サイクルは以下の通りであった： 95℃で2分間、（98℃で20秒間、65℃で15秒間、72℃で30秒間）サイクルを35回、72℃で5分間。次に、同じPCRキットを用いて、産物を2回目のバーコードPCRに供し、インデックス配列を付加した。次に、アンプリコンを1分子リアルタイム（SMRT）シーケンスにかけた。Amplification of bacterial full-length 16S gene with barcoded primers' protocol (Pacific Biosciences of California, Menlo Park, California, USA)に従って、amoAの多重アンプリコンライブラリーを調製した。最終的なSMRTライブラリーは、PacBio Sequel IIeシステム（Pacific Biosciences of California）を用い、CCS（circular consensus sequencing）モードで塩基配列を決定し、バイオエンジニアリング研究室（神奈川県相模原市）で正確なHiFi（high-fidelity）リードを作成した。

ショートリードamoAアンプリコンシーケンスには、39のメタトランスクリプトーム海水サンプルのうち、上記のように以前にロングリードアンプリコンシーケンスに使用した3サンプルと2サンプルを除く34サンプルを使用した。 cDNAはTranscriptor First Strand cDNA Synthesis Kit（Roche）を用いて合成した。増幅は、Tks Gflex DNA Polymerase Low DNA（タカラバイオ）を用いて行った。熱サイクルは以下の通りであった： 95℃、5分（94℃、45秒、53℃、60秒、72℃、60秒）サイクルを40回、72℃、15分。34個のcDNAサンプルのうち、4個はアンプリコン産生量が著しく少なかったため、以降の実験から除外した。最終的なアンプリコン濃度は3.4から93.1 nMの間で変動した。メタトランスクリプトーム海水サンプルを用いた現実的な比較のために、イルミナライブラリー調製に不十分なDNA濃度を含む残りのアンプリコンをシーケンス実験に供した。多重ライブラリーは、Nextera XT DNAライブラリー調製キット（Illumina）を用いて、製造元の指示に従って調製した。ライブラリーは、東京大学大気海洋研究所（千葉県柏市）において、Illumina MiSeqシーケンシングプラットフォーム（Illumina）を用いたショートリードシーケンス（2×300 bpペアエンドリード）に供した。

2.6 バイオインフォマティクス

キャプチャーおよび非キャプチャーシーケンスリードについて、低品質塩基（Phred quality score < 20）およびアダプター配列を含むリードの両端をTrimGalore（https://github.com/FelixKrueger/TrimGalore ）を用いてデフォルト設定でトリミングした。複雑度が低い配列または100 bpより短い配列は、PRINSEQ++（Cantu、Sadural、およびEdwards2019）を用いてデフォルト設定で破棄し、残りのリードを品質管理（QC）ペアエンドリードと定義した。QCペアエンドリードは、metaSPAdes (Nurk et al.2017)またはrnaSPAdes (Bushmanova et al.2019)を用いて、それぞれメタゲノムおよびメタトランスクリプトームサンプル用のデフォルトオプションでde novoアセンブルした。アセンブルされたコンティグ中のタンパク質コード配列（CDS）は、Prodigal (Hyatt et al.2010)を用いて'-meta'設定で予測した。次に、DIAMOND (Buchfink, Reuter, and Drost2021) を用いて、CuMMO 遺伝子配列データベースに対して、'-max-target-seqs 1 --evalue 1e-30 ---subject-cover 50 --query-cover 50 --id 60' の設定でamoA遺伝子を検索した。400bp未満または1000bp以上のCDSは以降の解析から除外した。キメラ配列もVSEARCH (Rognes et al.2016)を用いて、偽陽性を減らすために厳密な'-dn 0.5'設定で除去した。残りの配列は、MMseq2 (Steinegger and Söding2017)を使用し、'-cov-mode 0'設定で50%以上の長さカバレッジで97%の配列類似度にクラスタリングした。97%の閾値はamoAOTU定義に広く使用されており（Fabien et al. シングルトンを除外した後、各クラスターを操作分類学的単位（OTU）とした。典型的な16S rRNAアンプリコンシーケンス解析と同様に、我々は「サンプル連結」アプローチを用いた：OTUを定義するために、複数のサンプルから取得したすべての配列をクラスタリングのためにプールした。OTUの系統樹は、マルチプルアラインメントにはMAFFT（Katoh and Standley2013 ）、系統樹推定にはFastTree2（Price, Dehal, and Arkin2010 ）を用い、ベイズ情報量基準（BIC）に基づいてMEGA X（Kumar et al.）メタトランスクリプトーム海水サンプルについて、AOA OTUの分類学は、手動キュレーションの後、Alvesら（Alves et al.2018 ）によって定義されたAOAamoA配列データベースに対して、DIAMOND（Buchfink, Reuter, and Drost2021 ）を使用して割り当てられた。AOA OTUのエコタイプは、以前の定義（Beman, Popp, and Francis2008; Francis et al.2005 ）に従って分類学と系統学に基づいて推定した。CuMMO遺伝子配列データベースと系統樹トポロジーに対して、DIAMOND (Buchfink, Reuter, and Drost2021)を用いてアノテーションを行い、各OTUのコード遺伝子の機能と本来の分類を推定した。QCペアエンドリードをFLASH (Magoč and Salzberg2011)を用いてデフォルト設定でマージし、Bowtie2 (Langmead and Salzberg2012)を用いてOTUへのリードマッピングを行った。QCマージリードのカバレッジは、デフォルト設定のNonpareil3（Rodriguez-R et al.）

ロングレッドアンプリコンシーケンスリードについては、デフォルト設定の標準PacBio SMRTソフトウェアパッケージを用いて、平均ベースコール精度99%以上の各ポリメラーゼリード上に少なくとも3つのフルパスサブリードを含むCCSリードをHiFiリードとして保持した。< 400 bpまたは> 1000 bpのリードは、さらなる解析のために除去した。プライマー配列を除去するために、HiFiリードの両末端20 bpをSeqKit（Shenら2016 ）を使用してトリミングし、残りのリードをQC HiFiリードと定義した。キメラ配列はVSEARCH (Rognes et al.2016)を用いて'-dn 0.5'設定で除去した。残りのリードは、Bowtie2（Langmead and Salzberg2012 ）を使用してOTUにマッピングし、後述のようにRPKMSを算出した。

ショートリードのアンプリコンシーケンスリードについては、上記のキャプチャシーケンスリードおよび非キャプチャシーケンスリードと同じ方法でクオリティフィルタリングを行った。シーケンシングリード（2 × 300 bp ペアエンドリード）は、アンプリコン産物全体をカバーしないことが予想された。Francisプライマーは、amoA遺伝子の635 bp領域を増幅するように設計されている（Francis et al.）したがって、キメラリードの予測には、QCペアエンドリードを50 bp長の'N'ヌクレオチドをリンカーとして連結し、'-dn 0.5'設定でVSEARCH（Rognes et al. 予測されたキメラリードは、SeqKit（Shen et al.）後述するRPKMS存在量推定のため、キメラ除去後のQCペアエンドリードは、Bowtie2（Langmead and Salzberg2012 ）で「-N 1」設定でOTUに直接マッピングした。末端が同じOTUにアライメントされたリードのみをアバンダンスの推定に使用した。

マップされたリードは、各OTUの100万リードシーケンスあたりの遺伝子キロベースあたりのリード数（RPKMS）を計算するために使用された。OTUにマップされたリード数が100未満のサンプルを除外した後、デフォルト設定のveganパッケージを用いてRarefaction曲線を計算した。各生態型におけるRPKMSの存在量は、座標と水深とともに、Ocean DataView（https://odv.awi.de/ ）を使って可視化した。空間補間は、データ補間変分解析（DIVA）グリッディングアルゴリズム（Troupin et al.）

3 結果

3.1 メタゲノム群集モックサンプルを用いた検証

プローブ捕捉濃縮法の効率を評価するために、人工的なメタゲノム模擬DNAサンプルをグランドトゥルースとして準備した。モックサンプルは、異なるamoA遺伝子を等モル濃度で挿入した6つのクローニングベクターで構成された。amoA遺伝子は、系統的に離れた系統（セクション2参照）に属する3つのAOAと3つのAOBから選択した。モックサンプルを用いて、プローブ捕捉濃縮の効率に影響を与えうるハイブリダイゼーション捕捉と捕捉後のLM-PCR条件について、良好な実験設定を模索した。5つの異なる実験設定を用いて得られた配列データから、配列同一性閾値97％のOTUをde novoで同定した。さらに、プローブ捕獲濃縮アプローチとの比較のために、最も頻繁に使用されているamoAプライマーセットであるFrancisプライマー（Francis et al.

我々の手法（図1）を用いると、4つの捕獲サンプルと1つの非捕獲サンプルのプールから7つのOTUが予測された（図2A 、表S3 ）。7つのOTUのうち、クローニングベクターに含まれる6つのamoA配列はすべて完全な配列一致で検索に成功した。他のOTUのうち1つ（OTU_mock6）だけが、海洋の未培養AOA（Thaumarchaeota archaeon casp-thauma1）のものと高い配列類似性を示したが、これはおそらくハイブリダイゼーション前のサンプルに予期せぬ混合汚染があったことを示している。OTU_mock6は4つの捕獲サンプルのリードの0.09%までであり、サンプル中の汚染されたamoA遺伝子の濃度が低いことを示唆している。非キャプチャーサンプル（non-capture_Mock）では、OTUに対する配列リードのマッピング比率は15.8%であった。この値は予想通りであった。コンストラクト中のamoA遺伝子に属する塩基の比率は21%に近く、amoA遺伝子とクローニングベクターの長さはそれぞれ651-846と2739 bpであった。一方、キャプチャーサンプルからの比率は高く、シングルキャプチャー（single_Mock-cycle20）からの比率は72.2%であったが、ダブルキャプチャー（double_Mock-cycle5/20、double_Mock-cycle7/14、double_Mock-cycle7/20）からの比率は75.4%から79.8%であった。OTUマッピング解析とは対照的に、品質管理（QC）されたマージリードのほとんど（98.4%-99.7%）はクローニングベクター配列にマップされ、ほとんどのリード（97.8%-99.9%）は6つのamoA遺伝子配列のいずれかと配列類似性を示し（e-値< 1E-5でblastn検索）、これらのリードは部分的なamoA遺伝子配列を含むことが示された。これらの結果から、プローブハイブリダイゼーションにより、amoA遺伝子配列を含むライブラリーが選択的に濃縮されたことが示唆される。一方、一部のシーケンシングリードはOTUにマップされなかったが、これはOTUマッピングを逃れたリードの端にamoA遺伝子配列が部分的に関与していた可能性が高い。ロングリードアンプリコンシーケンスリードのほぼ全てがOTUにマップされた（99.9%、amplicon_Mock）。

図1

パワーポイントで開く

図2

図ビューアーで開くPowerPoint

挿入されたamoA遺伝子に対応する6つのOTUの、100万リードシーケンスあたりの遺伝子キロベースあたりのリードの相対存在量（RPKMS）は、非キャプチャーの設定では概ね一定であったが、キャプチャーサンプルではわずかに変動した。この傾向は、OTU_mock7 (Ca. Nitrospira inopinata ENR4)の減少に起因しており、シングルキャプチャーとダブルキャプチャー設定での相対存在量はそれぞれ5.7%と0.6%であった。同様に、OTU_mock1 (Nitrosococcus oceaniATCC 19707)は、プローブハイブリダイゼーション捕捉ステップの増加に伴い、わずかに減少傾向を示した。これは、OTUに対するプローブのリクルート力が低いためと考えられる。プローブデザインに使用したCuMMO遺伝子配列のうち、Ca.OTUのamoA遺伝子と類似性を示したのは3配列と39配列のみであった。Nitrospira inopinata ENR4およびNitrosococcus oceaniATCC 19707由来のamoA遺伝子との類似性を示した配列は、それぞれ3および39配列のみであり、他の4つの生物からは100配列以上であった（同一性＞95%、e値＜1E-30基準でのblastn検索）。プローブのハイブリダイゼーションが数個のミスマッチを受け入れることを考慮すると、プローブ設計における不均一な配列分布が、プローブ捕捉濃縮の偏りを引き起こした可能性がある。アンプリコン配列決定サンプル（amplicon_Mock）のうち、1つのOTU（OTU_mock3;Ca. Nitrosopelagicus brevis CN25、NP-ε-2クレード（WCAエコタイプ）（Santoro et al.2015 ）に属する）だけがほぼ全ての部分を占めていた（99. 0％）、OTU_mock6（Thaumarchaeota archaeon casp-thauma1, 0.5％）、OTU_mock5（Thaumarchaeota archaeon SCGC AAA007-O23, 0.4％）、OTU_mock2（Nitrosopumilus maritimusSCM1, 0.05％）が続いた。これはプライマーの偏りによるものと思われる。増幅に使用したプライマーセット（Francisプライマー）は、Ca. Nitrosopelagicus brevis CN25 (NP-ε-2)のamoA配列と完全に一致したが、このプライマーは他の2つのAOAamoA配列（Thaumarchaeota archaeon SCGC AAA007-O23 (NP-α-2.2.2.1)およびNitrosopumilus maritimusSCM1 (NP-γ-2.1)）とそれぞれ2つおよび3つのミスマッチを有し、3つのAOBamoA配列のいずれとも有意な一致を示さなかった。まとめると、一部のアンモニア酸化剤にわずかな偏りがある可能性はあるものの、プローブ捕獲濃縮戦略は、組成変化が少なく高感度のamoA遺伝子を効果的に濃縮し、メタゲノムやアンプリコンシーケンスアプローチを圧倒した。

3.2 標的遺伝子濃度感度の研究

次に、標的遺伝子濃度がプローブ捕捉濃縮効率に及ぼす影響を評価した。希釈したメタゲノム模擬試料を調製し、市販のプラスミドDNAを用いて6種類のamoA遺伝子の合計濃度を106、105、104コピー/ngのDNAに調整した（それぞれMock-copy1e6、Mock-copy1e5、Mock-copy1e4と呼ぶ）。調整した濃度は、土壌（Bahram et al.2022; Bannert et al.2011; Ding et al.2020; Han et al.2013; Marusenko et al.2013 ）、廃水（Spasov et al.2020; Wang et al.2021; Zhang et al.2015 ）、河口（Hollibaugh et al.2011 ）、海水（Christman et al.2011 ）など、幅広い環境の濃度に適合した。OTUは、3つのキャプチャサンプルと3つの非キャプチャサンプルからプールされたリードを用いてde novoで予測された。プローブキャプチャーの濃縮と、希釈サンプルに対する「シングルキャプチャー」設定によるバイオインフォマティクスの手法を用いて、6つの誘導amoA遺伝子の同定に成功した（図2B ）。OTUのマッピングされたリード比率は希釈率とともに減少し、1ng DNAあたり106、105、104コピーのサンプル（それぞれcapture_Mock-copy1e6、capture_Mock-copy1e5、capture_Mock-copy1e4）から63.1%、53.7%、22.3%がマッピングされた。一方、captureでないサンプル（non-capture_Mock-copy1e6、non-capture_Mock-copy1e5、non-capture_Mock-copy1e4）からは、0.0%-0.1%のリードしかマップされなかった。同じamoA濃度のサンプル間の比率を比較すると、キャプチャーサンプルは非キャプチャーサンプルよりも990～8100倍高い値を示した。OTUの相対的なRPKMS存在量は、キャプチャサンプルでは概ね均一であったが、非キャプチャサンプルでは、マップされたリード数が極端に少ないため、乱れた。全体として、この結果は、自然環境に類似した低い標的遺伝子濃度の条件下で、我々のプローブキャプチャー濃縮アプローチの高い効率性と特異性を実証している。

3.3 メタトランスクリプトーム海水サンプルの濃縮設定の研究

メタトランスクリプトームデータに対するプローブ捕捉濃縮アプローチの効率と、捕捉後のLM-PCR設定がパフォーマンスに与える潜在的な影響を明らかにするために、St2ステーションで採取した海水サンプルを用いて調製したcDNAライブラリーを解析した。異なる設定の4サンプルからのプールリードを用いて、8つのOTUが同定された（図S2 ）。シングルキャプチャーサンプル（0.5%、single_St2-cycle20）とオリジナルのメタトランスクリプトームサンプル（0.1%、non-capture_St2）では、マップされたリードの比率が低かった。非捕捉サンプルと単一捕捉サンプルのシーケンスリード数はそれぞれ2.3Mと2.2Mであった。相対存在量は2つのサンプル間で一致しており、単一キャプチャーの濃縮設定における組成の影響は低いことが示唆された。注目すべきは、フランシスプライマーを用いてもほとんど増幅されなかったコマモックスメンバー（OTU_st2-8；Ca. Nitrospira inopinataに帰属）が検出されたことである（Daims et al.）非キャプチャーおよびシングルキャプチャーサンプルとは対照的に、ダブルキャプチャーサンプルは高いマップリード比率を示した（それぞれdouble_St2-cycle5/20とdouble_St2-cycle7/14で86.0%と92.6%）（表S3 ）。さらに、シークエンシングリードの数が極端に少なかったためと思われるが、double_St2-cycle7/14のRPKMSの存在量は、他のサンプルのものと比べて乱れていた。これらを総合すると、シングルキャプチャーの設定は海洋メタトランスクリプトームサンプルに適用できるが、ダブルキャプチャーの設定は不安定な結果をもたらす可能性があることが示された。

3.4 メタトランスクリプトーム海水サンプルのプローブキャプチャーエンリッチメントシーケンシング

上記のシングルキャプチャー設定を用いて、沿岸から外洋まで、水深の異なる11のステーションで収集した39のメタトランスクリプトーム海水サンプルに対して、amoA遺伝子のプローブキャプチャー濃縮シーケンス解析を行った（図S1 、表S2 ）。キャプチャーサンプルと非キャプチャーサンプルに加えて、比較のためにフランシスプライマーを用いて、メタトランスクリプトーム海水サンプル34個と3個について、それぞれショートリードとロングリードのamoAアンプリコンシーケンスを行った。

プローブハイブリダイゼーション捕捉前のプール中の等モルライブラリーにもかかわらず、捕捉された各サンプルからのシーケンシングリード数は0.29〜3.28M（平均1.25±0.82M）であり、水深や陸からの距離とともに増加する傾向が見られた（表S2およびS3 ）。また、amoA増幅に用いた海水試料のうち、各観測地点の最表層から採取した4試料（ON3-0m、ON4-0m、St2-0m、OT4-0m）からは、PCR増幅による明らかなアンプリコンは得られなかった。これらの結果は、これまで広く観察されてきたように、アンモニア酸化物質が表層よりも深層に多く、湾内よりも湾外に多く存在するという一般的な傾向を反映している（Lu et al.2020; Molina et al.2020; Newell, Fawcett, and Ward2013; Shafiee et al.2021; Tolar, King, and Hollibaugh2013; Zou et al.2020)。この傾向は地球化学分析とも一致し、硝酸塩（NO3- ）とアンモニウム（NH4+ ）濃度は、海底付近よりも表層で、遠洋域よりも沿岸域で採取されたサンプルの方が低かった（表S2 ）。対照的に、予想されたように、非捕捉サンプル内のリード数は概ね均一であった（0.96～1.89 M、平均1.19±0.17 M）。注目すべきは、3つのロングリードアンプリコンシーケンスサンプルのうち、34.2%（amplicon_OT3-50m）と34.2%（amplicon_OT3-B-5m）のデータが、主にキメラリードのフィルタリングによって失われたことである（表S3 ）。同様の傾向はショートリードのアンプリコンシーケンスでも見られ、35.6 ± 5.4%のリードがこのステップで除去された（TableS3 ）。すべてのキャプチャサンプルと非キャプチャサンプルにおけるシーケンシングリードの推定カバレッジは高く（91.7%以上）、メタトランスクリプトーム全体をカバーするのに十分なシーケンシング深度があることが示唆された（図S3A ）。

プローブ捕獲濃縮アプローチにより、群集中のアンモニア酸化細菌によるamoA遺伝子の発現レベルが高分解能で明らかになった（図3,表S4 ）。87のOTUが同定され、そのうち少なくとも78と2のOTUがそれぞれAOAとAOBからのamoA遺伝子に割り当てられた。その他の OTU のうち、2 OTU と 4 OTU は、それぞれメタン酸化細菌（MOB）と放線菌由来の粒子状メタンモノオキシゲナーゼ（pmoA ）とチトクローム P450 遺伝子と推定された。他のOTUは、Alves et al. (2018)が記載したように、既知のamoA遺伝子と低い（84.8%）配列類似性を示し、系統トポロジーを考慮すると、AOAamoAか機能的に異なる遺伝子かを結論することは困難であった。一方、可能性のある78のAOA OTUは、配列データベースのamoA遺伝子と94.2%～100%の配列類似性を示した(Alves et al.2018)。マップされたリード比率は、非キャプチャサンプル（0.02%-0.08%、0.05±0.02%）よりもキャプチャサンプル（0.8%-82.0%、平均50.4±27.2%）で有意に高かった（p< 0.05、Mann-WhitneyU検定[U検定]）。ロングリードアンプリコンシーケンスでは、ほぼすべてのリード（99.3％以上）がOTUに対応したが、ショートリードアンプリコンシーケンスでは、ペアエンドリード（セクション2参照）の増幅とキメラ検出が困難であったためと思われるが、マップされたリードの比率は中程度でばらつきがあった（0.13％～40.0％、平均20.6±13.6％）。さらに、キャプチャーサンプル（35から85、平均61.3）の検出OTU数は、非キャプチャーサンプル（4から27、平均11.3）よりも有意に多かった（q< 0.05、U検定、ボンフェローニ補正）。アンプリコンシークエンスによるもの（2～25、平均8.2）は、非捕獲サンプルによるものよりも有意に高かったが、捕獲サンプルによるものよりも有意に低かった（q< 0.05、U検定、ボンフェローニ補正）。AOAとAOBのOTUのうち、36 (41%), 68 (77%), 54 (61%)は、それぞれ非捕獲サンプル、ロングリードアンプリコン、ショートリードアンプリコンシーケンスサンプルで未同定であったのに対し、30 (34%) のOTUは、非捕獲サンプルとアンプリコンシーケンスサンプルのいずれからも検出されなかった。キャプチャーサンプルとは対照的に、ほとんどの非キャプチャーサンプルとアンプリコンシーケンスサンプルのレアファクション曲線は飽和しておらず、OTUにマップされたリード数が非常に少ないことから、コミュニティ内のAOAとAOB集団をカバーするには、より多くのシーケンシングリードが必要であることが示された（図S3B ）。

図3

パワーポイントで開く

すべてのAOA OTUはNitrosopumilales目に割り当てられ、4つの目レベルのクレード（NP-α、NP-δ、NP-ε、NP-γ）にまたがった。NP-αとNP-εは遠洋の海水で観察されると報告されているが、NP-δは沿岸水と海底堆積物の両方であり、NP-γはサンプル（図S1および表S2 ）と一致するように、3つの海洋環境すべてに生息するメンバーで構成されていた（Alves et al.） NMDS解析では、組成と水深との有意な関連が示された（p< 0.05、veganパッケージの'envfit'関数で実装された回帰モデルの並べ替え検定）（図S4 ）。特に捕獲サンプルでは、NP-α-2.2.2.1に分類されるOTUの発現量は水深とともに増加したが、NP-γ-2.1は減少し、NP-ε-2は均等に分布した（図4 ）。3つの生態型それぞれのRPKMS濃度は、NO3-およびPO43-濃度と有意な相関がみられた（スピアマンの相関、q< 0.05、ボンフェローニ補正）が、NH4+およびNO2-とは有意な相関はみられなかった（q> 0.05）（図S5 ）。全体として、捕獲サンプルではNP-γ-2.1が支配的なグループであり、NP-α-2.2.2.1およびNP-ε-2がそれに続いた（図S6 ）。これらの所見は、非捕捉サンプルではほとんど観察されなかった。捕獲配列決定および非捕獲配列決定とは対照的に、アンプリコン配列決定による発現プロファイルでは、NP-ε-2が最も優勢な生態型であった。ショートリードのアンプリコンシーケンスサンプルから得られたNP-ε-2のRPKMS存在量は、キャプチャーサンプルから得られたものより有意に高かった（q< 0.05、U検定、ボンフェローニ補正）のに対し、アンプリコンサンプルから得られたNP-γ-2.1の存在量は、キャプチャーサンプルから得られたものより有意に低かった（q< 0.05）（図S6 ）。模擬群集分析（図2）では、NP-ε-2とNP-γ-2.1の検出力はほぼ同等であったことから、これらの結果はプローブ配列の構成によって説明されるものではなく、上述したようにフランシスプライマーによるPCRバイアスによるものであると考えられる。

図4

パワーポイントで開く

4 考察

我々は、アンモニア酸化細菌の群集構造とその潜在的な活性を効率的に調べるために、amoA遺伝子のプローブ捕獲濃縮シーケンス法を開発した（図1 ）。この手法をメタゲノム解析による模擬群集サンプルに適用したところ、真の群集構造を再構築することに成功し、この手法が群集サンプル中のAOAsとAOBsの組成を定性的に信頼できる形で推定できることを実証した。さらに、本手法は、海洋サンプル中の多様なアンモニア酸化細菌のamoA発現レベルを高い系統学的解像度で同定することに成功した。この結果は、ショットガンのメタトランスクリプトームやアンプリコンシーケンスの結果とは対照的であった。OTU定義のためのキメラ配列の除去や配列のクラスタリングは、マッピング効率の深刻な低下を引き起こさなかった（図1、表S5 ）ことから、主要なamoA遺伝子配列がOTUとして検索されたことが示唆される。逆に、アンプリコンシーケンスからのキメラリードフィルトレーションでは、平均して30%以上のリードが削除された（表S3 ）。この結果は、PCRを使わないアプローチの有効性を強調している。まとめると、プローブキャプチャー濃縮シーケンシングは、原核生物群集のamoA遺伝子に関する詳細で包括的な情報を提供し、それによって環境中の原核生物の窒素循環の実質的な理解に貢献する。

細菌および古細菌のドメイン全体で高度に保存された配列に挟まれた9つの超可変領域（V1-V9）を含む16S rRNA遺伝子とは対照的に、amoAを含むほとんどの機能性遺伝子にはよく保存された領域がない。このことは、AOAとAOBをカバーする多様なamoA遺伝子に完全にマッチする「普遍的」プライマーセットの設計を著しく制限する。したがって、一般的なamoAアンプリコンシーケンスは、プライマーのミスマッチのためにアンモニア酸化細菌の多くの系統を過小評価する可能性があり、対照的にプライマーとの結合親和性の高い遺伝子を持つ特定のメンバーを過大評価することになる。我々の実験では、Ca. NP-ε-2クレードのメンバーであるNitrosopelagicus brevis CN25 由来のamoA遺伝子に有意なPCRバイアスが見られた（図2A ）。同じ傾向が野外メタトランスクリプトーム試料でも観察された： NP-ε-2はアンプリコンシークエンシングで主に検出されたが、NP-γ-2.1はプローブキャプチャー濃縮でより多く検出された（図3およびS6 ）。したがって、海洋における生態型の分布に関する現在の知識は、プライマーの偏りによって影響を受けている可能性が高く、海洋における窒素循環に対するNP-ε-2だけでなく、NP-γ-2.1の潜在的な貢献についてさらに再考する必要がある。クレードの空間的分布と時間的変動、特に海洋学的にダイナミックな海域を持つ沿岸域（Shiozaki et al.2015 ）を決定するには、さらに大規模なサンプリングと解析が必要である。

メタオミクス（すなわち、メタゲノミクスとメタトランスクリプトミクス）は、ショットガンシーケンスに依存しており、AOAsとAOBsの系統学的多様性とゲノム多様性、さらには窒素循環に関与する潜在的な代謝経路を調べるために、現在広く用いられている。このアプローチの利点の1つは、PCRバイアスを回避できることで、従来のPCR増幅を逃れるような配列の回収が可能である（Cheung et al.）本研究では、アンプリコンシーケンスで検出されなかったOTUを、プローブキャプチャー濃縮とシンプルショットガンシーケンスで同定した（図3 ）。ショットガンシーケンスアプローチを用いて、海洋中のアンモニア酸化細菌は以前考えられていたよりも多様であることが最近報告された（Cheung et al.）しかし、我々が実証したように、異種群集における標的遺伝子／転写産物の濃度が低いため、このアプローチの効率は著しく制限される。ここで、プローブキャプチャー濃縮アプローチでは、単純なショットガンシーケンスよりもamoAの数が多く、多様な発現レベルが示された。この傾向は、16S rRNAに焦点を当てた以前の研究で観察されたものと同様である（Gasc and Peyret2018 ）。その結果、プローブキャプチャー濃縮アプローチは、典型的なオミックスベースの手法よりもamoA配列についてより有益な結果を提供する。

最近のいくつかの研究では、多様なamoA遺伝子の分類学的分類に向けて大きな努力がなされているが（Alves et al. これは、SILVA (Quast et al.2013)やRDP (Cole et al.2014)などのデータベースが開発され、関心のあるあらゆる16S rRNA遺伝子配列の分類学的分類に一般的に使用されている16S rRNA遺伝子とは対照的である。土壌微生物群集の16S rRNAに焦点を当てた以前のプローブ捕捉濃縮シーケンス解析では、MG-RASTパイプラインを介したリードのアライメントベースの直接的な分類学的分類が示された（Manoharan et al. そこで、de novo OTUを構築し、分類学的分類とRPKMS存在量推定のためにマッピングベースのアプローチを用いた。実証されたように、このアプローチは系統推定のための良好な情報を提供することに成功し、高い感度でRPKMS計算に効果的に利用された。しかし、対象とした遺伝子配列の端をまたぐリード（すなわち、amoA遺伝子と隣接するゲノム領域にまたがるリード）は、定義した基準を超えない低いアラインメントスコアのため、OTUにマッピングされないことが多く、偽陰性リードの存在を示していることに注意すべきである。実際、メタゲノムMockサンプルを用いた4つのキャプチャーサンプルの場合（図2A ）、QCでマージされたリードのOTUへのマッピング率は、プラスミド構築物にマッピングされたものよりも26%～30%低かった。さらに、ほとんどのリードは、類似性検索解析に基づき、部分的なamoA配列を持っていると予測された。これらの結果から、プローブキャプチャーは標的遺伝子を含むリードを濃縮することに成功したが、マッピング比はプローブキャプチャーの真の再現力を過小評価することにつながったことが示唆される。

また、この方法は弱いリクルート力による潜在的なバイアスを考慮しなければならないことにも注意すべきである。複数のハイブリダイゼーションキャプチャー（すなわち、ダブルキャプチャー設定）は、乱れた結果を生成した（図2A ）一方、シングルキャプチャー設定は、メタトランススクリプトミクスの海洋サンプルのいくつかのケースでシーケンスリード数が少なかった（表S3 ）。これらの問題は、経済的なシーケンスによってより正確な結果を得るために、手法のさらなる改善が必要である。プローブ設計に用いた配列データベースでamoA遺伝子と類似性を示す配列数が少なく、amoA遺伝子を含むDNA断片にハイブリダイズするプローブが不足したためと思われる。このバイアスを克服するためには、MetCapパイプラインで実装されているように、プローブ設計の対象となる遺伝子配列を拡大して、自然界に存在するより多様なamoA遺伝子を含めるとともに、特定のクレードの過剰検出を避けるために高密度配列をデシメートする必要がある（Kushwaha et al.）注目すべきは、環境微生物学の分野における多くの研究と同様に、本研究ではシーケンス実験をサンプルごとに1回実施したことである。統計的に確実な結論を得るためには、十分な技術的・生物学的複製を用いたさらなる検討が必要である。プローブ捕獲濃縮シーケンスと、16S rRNA遺伝子アンプリコンシーケンスやqPCR解析などの他の技術との組み合わせは、本研究の知見を補強するものである。amoAプローブ捕捉濃縮シーケンシング法は海洋環境に限らず、土壌、淡水、堆積物、廃水処理プラントなど、あらゆる群集サンプルに適用可能である。この方法をさらに応用することで、窒素循環と微生物生態に関する革新的な知見が得られるだろう。

5 結論

本研究は、プローブ捕獲濃縮シーケンス法を用いることで、アンモニア酸化細菌の群集構造と、その群集におけるamoA遺伝子の発現レベルを、従来の方法を凌駕して効果的に回収できることを実証した。この方法を海洋メタトランスクリプトームサンプルに適用したところ、微生物遺伝子総発現量では発現レベルが低いと思われるAOAでも、これまでにない多様性が検出された。重要なことは、海洋サンプルの解析から、最も一般的なプライマーセットを組み込んだアンプリコンシーケンスでは、PCRに大きな偏りが生じ（すなわち、ほとんどのアンモニア酸化細菌が見逃され、選択的なNP-ε-2メンバーが増幅された）、その結果、系統学的な解像度が低く、相対存在量プロファイルに一貫性がないことがわかった。このことは、アンモニア酸化剤の系統的多様性と空間的分布に関する現在の知見はほとんどすべて従来の技術に基づいているが、amoAアンプリコン・シークエンシングでは一般的に真の組成からかけ離れた結果が得られることを示している。したがって、この方法は、地球上の広大な環境における窒素循環原核生物の地球化学的貢献を理解するために、アンモニア酸化細菌の群集構造と生物学的応答を高解像度で調べるための代替ツールとなりうる。

著者貢献

平岡聡は、本研究の立案、バイオインフォマティクス解析、原稿執筆を行った。伊地知稔は、本研究の構想・設計、サンプリングおよび分子生物学的実験を行い、原稿を執筆した。竹島宏彦は分子生物学的実験の計画・実施に貢献した。熊谷洋平はプローブ設計に貢献した。Ching-Chia Yangはバイオインフォマティクス解析に貢献した。真壁-小林陽子：分子実験に貢献。福田英樹は栄養測定を行った。吉澤進、岩崎渉、小暮一弘が監修した。塩崎拓平は研究の立案、ショートリードアンプリコンシーケンスの実施、原稿執筆、プロジェクトの監督を行った。著者全員が最終原稿を読み、承認した。

謝辞

KS16-01クルーズ中のR/V新生丸（JAMSTEC）の船長、乗組員、船内の科学者、技術者に感謝したい。バイオインフォマティクス解析は、国立遺伝学研究所（NIG）のスーパーコンピューティングシステム、情報・システム研究機構（ROIS）およびJAMSTECの地球シミュレータシステムで行った。

利益相反

伊地知稔はQIAGEN（東京都中央区）の社員であり、バイオエンジニアリング研究室（神奈川県相模原市）の元社員である。その他の著者は利益相反がないことを表明している。

amoA遺伝子のプローブキャプチャーエンリッチメントシーケンスによる多様なアンモニア酸化性古細菌および細菌集団の検出の向上

amoA遺伝子のプローブキャプチャーエンリッチメントシーケンスによる多様なアンモニア酸化性古細菌および細菌集団の検出の向上

要旨

1 はじめに

2 材料と方法

2.1 キャプチャープローブの設計

2.2 模擬サンプルの構築とDNAサンプルの調製

2.3 海水サンプリングとRNAサンプルの調製

2.4 ライブラリー構築、プローブ捕捉および塩基配列決定

2.5 アンプリコンシーケンス

2.6 バイオインフォマティクス

3 結果

3.1 メタゲノム群集モックサンプルを用いた検証

3.2 標的遺伝子濃度感度の研究

3.3 メタトランスクリプトーム海水サンプルの濃縮設定の研究

3.4 メタトランスクリプトーム海水サンプルのプローブキャプチャーエンリッチメントシーケンシング

4 考察

5 結論

著者貢献

謝辞

利益相反

公開研究

参考文献

その他のリンク

ワイリーオンラインライブラリーについて

ヘルプ＆サポート

機会

ワイリーとつながる

いいなと思ったら応援しよう！