生物クイズ#7【DNAバーコード】
問題
4種の塩基から構成されるDNAの配列は情報の格納庫として用いることができる。今、それぞれの細胞を特有のDNA配列でラベルし、そのDNA配列を識別子として下流のシングルセルRNAシークエンス解析を行うことを考える。マウスの大脳皮質の細胞100万個をこのDNA配列でラベルする。DNA配列に重複が出にくくなるように、ラベルする細胞数の100倍以上の種類のDNA配列が生じるようにDNA配列を設計するとき、最低何塩基のDNA配列が必要だろうか。
ただし、$${log_2 5}$$を2.32とする。
答え
14塩基
解説
4つの塩基で識別できるパターン数はDNAの塩基数$${n}$$に対して$${4^n}$$で増えていくので、
$$
4^n > 10^6 \times 10^2 \\\
n \log_2 {4} > 8 \log_2 {10} \\\
2n \log_2 {2} > 8 (\log_2 {2} + \log_2 {5} ) \\\
2n \times 1 > 8 (1+ 2.32) \\\
n > 13.28
$$
以上より、答えは14塩基。
もともとはDNAバーコードとはシークエンスにより環境中の生物種を特定する際に用いられるDNA領域のことを指していたようだ。しかし、DNA合成やシークエンスのコストが下がったことにより、近年問題文にあるような、DNAバーコードを用いて生体内の個々の細胞をラベルし、シークエンスにより知りたい情報とともに読み出すということがバイオテクノロジーの分野で盛んにおこなわれている。この手法は普遍的で、問題文のようなシングルセルシークエンスのみならず、分子のラベル付けや神経細胞の投射先のラベル付け、細胞系譜の解析にも用いられている。蛍光などの光で分離する場合には波長のオーバーラップから一定以上のパターン数を生み出すのが困難なのに対し、DNAバーコードでは配列を長くすれば指数関数的にパターン数を増やせることが魅力的である。