ゲノムシーケンシング(DNAシーケンサー)について
今回はDNAシーケンシング、生物のゲノム配列を解読するゲノムシーケンシングについて、ざっと紹介してみます。 DNAシーケンシングとは、DNAのAGCTの並びである塩基配列を解明することです。
Maxam-Gilbert法とSanger法
1970年代にMaxam-Gilbert法とSanger法が開発され、DNAの塩基配列決定が始まりました。 当初は、ファージやプラスミドにクローニングされたDNAを大量に調製し、それを直接(マキサム・ギルバート法)あるいは鋳型として(サンガー法)シーケンス反応を行っていました。 しかし、一度に決定される塩基数は最大数十〜数百bpでした。
マクサム・ギルバート法は、一本鎖DNAの化学的な切断を利用して塩基配列を決定する方法です。 末端標識した一本鎖DNA断片を4本のチューブに分注し、それぞれジメチル硫酸(Gで切断)、酸(GかAで切断)、ヒドラジン(CかTで切断)、ヒドラジンと塩(Cで切断)で処理して切断後に、これらの断片を電気泳動して配列を解読します。 マクサム・ギルバート法では未知の塩基配列を決定することができますが、使用する化学物質の危険性や解読できる距離が短いという欠点があり、現在ではほとんど使用されていません。
1977年に開発されたサンガー法は、プライマー配列から伸長する相補鎖の合成に基づく方法です。 相補鎖の合成中に、AGCT4種類のデオキシリボヌクレオチド(dNTP)に加えてdNTPの3’末端のOH基がエステル結合によって塞がれているジデオキシリボヌクレオチド(ddNTP)と呼ばれる特別なヌクレオチドを混合します。ddNTPは次の塩基が結合できなくなるため、DNA合成が停止します。 例えば、dNTPsにddATPを混ぜておくと相補鎖の合成がAで止まり、ddCTPを混ぜておくと合成がCで止まります。この方法により、プライマー配列がわかっていればプライマー配列から続く未知の塩基配列を決定できます。
初期のサンガー法では、プライマーの5’末端に放射性標識を施したり、dNTPに放射性同位体を含ませたりして反応をおこなっていました。DNA合成酵素、バッファー、プライマー、dNTPs(dATP、dCTP、dGTP、dTTP)の混合液に、ddATP、ddCTP、ddGTP、ddTTPそれぞれを混ぜたものをそれぞれ別のチューブで反応し、隣り合った別のレーンで電気泳動することで長さを分けて、DNAの塩基配列の並びを解読していました。80年代後半までは、DNA 合成にはDNA合成酵素から修復活性を持つドメインを欠失したklenow large fragentが用いられていましたが、後に、PCRで用いられるTaqポリメラーゼが導入され、少量の鋳型DNAからでも何サイクルも反応を行うことが可能になり、より効率的にシーケンス反応が可能になりました。 また、ddATP(赤)、ddCTP(青)、ddGTP(緑)、ddTTP(黄)というように、それぞれ異なる波長の蛍光を出す蛍光標識されたddNTPを使用して一本のチューブで反応を行い、一つのレーンで電気泳動を行うことによって塩基配列を解読する手法も開発されました。 さらに、ゲル電気泳動がキャピラリー電気泳動に変わり高速ハイスループット化されたのが、現在のサンガー法に基づくシーケンシングです。この方法では、1レーンあたり1 kb程度の配列を読むことができます。このようにして、サンガー法は高速化とハイスループット化が進み、現代のシーケンシング技術の基盤となりました。
ゲノムシーケンシング
2000年頃のヒトゲノムプロジェクトやモデル生物のゲノムプロジェクトでは、主にサンガー法が用いられました。ゲノムプロジェクトでは、染色体上にマップされたクローンの塩基配列を読むマップベースシーケンス法と、ランダムに切断されたゲノムDNA断片を読んで後からコンピュータ上で繋ぎ合わせるショットガンシーケンス法の2通りの手法、あるいはそれらを組み合わせた手法が取られました。
マップベースシーケンスでは整列化されたクローンの塩基配列を読むため、全染色体のゲノムシーケンスを無駄なく効率的に隙間なく読み進めることができますが、クローンの整備やマッピングには時間がかかります。一方、ショットガンシーケンスはDNAをとにかく読んでしまう方法で、ゲノムクローンライブラリーの作製やクローンのマッピングの必要がなくスピード感では優れていますが、読んだ領域が実際にゲノム上のどの領域か分からないため、1 kb程度の断片の繋ぎ合わせでは繋ぎ間違いや読み残しのギャップが生じやすく、重複配列や繰り返し配列にも弱いという欠点があります。配列のオーバーラップを確認するためには、大量のシーケンスデータ(全ゲノム配列の1-50倍程度)が必要になり、サンガー法ではコストの問題もありました。初期のショットガンシーケンス法によって報告された全ゲノム配列は精度が悪く、セレラ社から発表されたヒトドラフトゲノム配列や中国から発表されたイネゲノムドラフト配列には、ゲノム上での位置がわからない配列やギャップが多く含まれており、これらの配列にはクローニングに用いられた大腸菌ゲノムの一部と思われる配列も含まれていました。しかし、現在ではコンピュータ技術の発展に加えて、PacBioやNanoporeなどのロングリードを可能にするシーケンス技術が確立されたことにより、ショートリードの配列の繋ぎ合わせにおいても精度を高めることができるようになりました。シーケンシングにかかるコストが劇的に下がってきたため、近年ではとにかく読んでしまうショットガンシーケンス法が主流となっています。
次世代シーケンサー(並列化シーケンスの時代)
2000年代に入ると、454 Life Sciences(後にRocheに買収、2005年発表)やSolexa(後にIlluminaに買収、2006年発表)などを代表とする次世代シーケンサー(NGS)が開発され、大量のDNA断片の配列を一度に解読する並列化シーケンスの時代が幕を開けました。
次世代シーケンサーの基本的な原理は、パイロシーケンスと呼ばれる方法でDNAの塩基配列を決定します。パイロシーケンスでは、DNAポリメラーゼが作用して塩基が取り込まれるときに放出されるピロリン酸を検出し、その放出エネルギーを用いてルシフェラーゼによる発光を検出します。これにより、塩基配列の各位置でのシグナルを記録し、配列を決定します。例えば、GATTCTという配列の場合、A, T, G, C, A, T, G, C, ...の順で1塩基づつ塩基を取り込ませると、シグナルは「0, 0, 1, 0, 1, 2, 0, 1, 0, 1...」と増加していきます。最近のパイロシーケンスでは、蛍光標識されたdNTPを使用することが一般的です。
454 Life Sciencesのシーケンサーは、ナノスケールの穴が開いたウェルを大量に持つプレートに1 kb程度に断片化した一本鎖DNAを格納し、パイロシーケンスを行います。各ウェルには1種類の塩基(例えばdATP)を加えて伸長反応を行い、放出される発光シグナルをレーザーでスキャンして測定します。配列がTであれは、ATP分子が1つ、TTであれば2つ取り込まれ、T以外の配列であればdATPは取り込まれず蛍光は検出されません。その後、フリーになった蛍光物質とウェルの中に残った余分の蛍光標識されたdATPを洗い流して、次の塩基、例えばdCTPを入れて伸長反応を行う…という具合に、4種類のdNTPsを順番に取り込ませて、スキャン、洗浄のステップを繰り返すことにより塩基配列を決定します。この手法により、電気泳動の手間が省け、大量のサンプルを同時に解析できます。ただし、ポリメラーゼ活性の持続性には限界があり、特に長い連続した配列(例えばAAAAA)の解読には弱点があります。
一方、Solexa(後のIllumina)のシーケンサーは、フローセルと呼ばれるプレート上でシーケンスを行います。ここでは、dNTPの3'末端に可逆的な蛍光標識が施されています。DNAは断片化され、一本鎖の状態でプライマーと結合し、フローセルに固定されます。ポリメラーゼにより、1分子だけ蛍光標識のdNTPが伸長されます。3’末が標識されているので2塩基以上は結合できません。この伸長過程で放出される蛍光をレーザーでスキャンし、各ウェルの蛍光シグナルを測定、画像化すると同時に3'末端に付加されている蛍光標識を外します。この1分子だけの伸長とスキャン、洗浄のステップを繰り返すことによって塩基配列を決定します。この方法は、連続した配列に強く、超ハイスループットで一度に大量のサンプルを同時に解析できますが、1塩基ずつ決定するのでポリメラーゼが失活しやすく、リード数が短いという欠点があります。現在でも各リード長は150〜300 bp程度が限界です。ただし、一度の解析で4T bpものデータを得ることができる特徴があります。
これら次世代シーケンサーと呼ばれるものは、各リード長は短いが大量のリード数を稼ぐことで一度のシーケンス反応(run)でヒトゲノム(3 Gbp)の1,000倍もの配列を出力します。現在でもそのリード数の多さから、トランスクリプトーム解析や菌叢解析には並列化シーケンサーが使われるのが主流です。
長鎖DNAシーケンシング
さらに、2010年にはPacific Biosciences(PacBio)から、新たなシーケンサーが発表されました。このシーケンサーもパイロシーケンスの原理を基盤としていますが、超高感度カメラを使用し、固定されたポリメラーゼが塩基を取り込む過程でリアルタイムで蛍光シグナルを測定します。これにより、ポリメラーゼの失活リスクがなく、数kbから数十kbの長い塩基配列を効率的に解読できます。ただし、ノイズには比較的弱く、高いエラー率(約15%)が課題ですが、複数回の解読を組み合わせることで高い精度での配列解読が可能です。ゲノム配列の決定には20 kb程度のDNA断片を繰り返し解読するHigh-Fidelity sequencing (HiFi Seq)法が用いられます。
2012年には、Nanoporeシーケンサーが発表されました。その原理は従来のシーケンサーとは全く異なり、ナノポアシーケンサーでは、膜状に並べられたチャンネルタンパク質をDNAの塩基が通過する際の電位の変化を測定し、それに基づいて塩基配列を決定します。①膜状にチャンネルタンパク質が並べられていて、その膜を挟んで電圧をかけるとチャンネルを電流が流れ、②そのチャンネルの中を分子が通ると、チャンネルの穴が狭くなるので流れる電流が減る、③その仕組みを利用して、DNAがチャンネルを通る際の電流の変化を測定することで塩基配列を解読する、というものです。塩基配列の決定のアルゴリズムはよくわからないのですが、実際にはA, G, C, Tそれぞれ1分子での微細な電位差をみているのではなく、ある程度の長さのDNAを通した際の電位変動のパターンから塩基配列を推測するというAI処理が行われているようです。この方法は原理的にはDNAのみならずRNAやタンパク質にも応用でき、実際にタンパク質のアミノ酸配列を決定しようとする試みもなされています(2)
この技術はとにかく長く読めることとに加えて小型化が進んでおり、USBメモリサイズの装置であるため、場所を選ばず利用できるのが大きなメリットです。しかし、エラー率は高く(90-99%)、綺麗で長いDNAが必要であり、スループットも他の次世代シーケンサーに比べて劣ります。とはいえ、並列化シーケンサーほどではないものの、1回のrunで数千リードは得られます。
最近、ナノポアシーケンサーを用いた20 kb程度のplasmidクローンの全長シーケンスを外注してみましたが、2,000~3,000 reads程度解読してくれているので各リードのエラー率が高くても全く問題はありません。以前はプラスミドにクローニングをした後のインサートの確認はサンガー法で行なっていましたが、primerとサンガーシーケンスのコスト(プライマー+1反応 =1 kbで1,500〜2,000円くらい)を考えると、インサートが数kbの場合にはプラスミド全長シーケンス(1サンプル4千円程度)の方が安価です(価格は2024年現在)
(1) 次世代シーケンシングの総説
Goodwin, S., McPherson, J. & McCombie, W. Coming of age: ten years of next-generation sequencing technologies. Nat Rev Genet 17, 333–351 (2016). https://doi.org/10.1038/nrg.2016.49
(2) ナノポアシーケンスによるアミノ酸配列決定の紹介記事
Caroline Seydel. Powerful ‘nanopore’ DNA sequencing method tackles proteins too. Nature 629, 492-493 (2024). https://doi.org/10.1038/d41586-024-01280-5