情報で捉える生物学入門#2 【生物学のための情報理論入門】
本連載では生物学を情報の観点から捉えることを目指しているが、そもそも情報とは何で、どのように定量化できるのだろうか?
今回は、生物学を学ぶ人のための情報理論入門を行いたい。
情報量
状態$${x}$$をとる確率を$${p(x)}$$とかく。情報を確率変数の実現値であると定義すると、情報を定量化した自己情報量$${I(x)}$$は以下の式で表される。
$$
I(x) = -\log_2 p(x)
$$
情報量は驚きの程度を表す量ともいわれ、確率が低い事象が起こったときほど情報量が多くなる。よって、犬がヒトをかんだも情報量は高くないが、ヒトが犬をかむと情報量が高い。(ちなみにこれは生物学と絡めて出している例ではなく、なぜか古典的に情報理論の教科書で使われる例である。)
また、一般的に$${log}$$の底が2の場合の情報量の単位にはbitが用いられる。情報量が確率の$${log}$$で定義されるため、互いに独立な確率変数の情報量は単独な場合の和であるという便利な性質がある。
生物学と情報量の関連としては、たとえば、DNAは4進数で書かれた文字列と考えることができる。(以前、DNAとコンピューターを対比し、何進数が最適か論じた論文を紹介する記事を書いた。)
ここで、DNAのATGCそれぞれの文字が$${\frac{1}{4}}$$ずつの確率で生じると仮定して、ヒトゲノムの約30億塩基対が何bitの情報を保持しているか計算してみよう。1塩基で保持できる情報量は、$${-\log_2 (\frac{1}{4})=2}$$ bitである。ゲノムを独立な文字列として扱うと、$${3\times10^9\times2 = 6\times10^9}$$ bitの情報を保持していると計算できる。この情報量約6GBは、CD一枚が保持できる情報量と同じ程度である。100 μmといった極小の細胞内にこれが収められていると考えると情報量が多い気もするが、近年のHDDが1TB ~ $${10^{12}}$$を超える容量があり、その$${\frac{1}{1000}}$$の情報量にヒトの設計図が収められていると考えると、そんな情報量でヒトがどのように形作られていくのかと不思議にも思える。
シャノンエントロピー
続いて、情報理論において最も重要な量であるシャノンエントロピーは、情報量の期待値をとって以下の式で表される。
$$
H(X) = -\sum_{x}p(x)\log_2 p(x)
$$
ここで、シャノンエントロピーが最大になるのはすべての事象が等確率で起こるときであると知られている。
実際に、ATGCが等確率に$${\frac{1}{4}}$$で出るとき塩基一文字のシャノンエントロピーは$${-4\times\frac{1}{4}\log_2 \frac{1}{4} = 2}$$ bitであるが、Aが$${\frac{1}{2}}$$で出て他の塩基が$${\frac{1}{6}}$$出るとき、$${-\frac{1}{2}\log_2 \frac{1}{2}-3\times\frac{1}{6}\log_2 \frac{1}{6}\sim1.792}$$ bitで、前者の場合にエントロピーが大きくなっている。
では、DNA配列はシャノンエントロピーが大きくなるように、ATGCを一様に生じるように進化しているのだろうか?
ここで、簡単な実験として、ATGCが等確率で出る場合の開始コドンの情報量と終始コドンの情報量を計算してみよう。
開始コドンはATGの一種類のみ存在するので、情報量は$${-\log_2 \frac{1}{64} = 6}$$ bitであり、一方の終始コドンはTAG, TAA, TGAの3種類存在するので、情報量は$${-\log_2 \frac{3}{64} \sim 4.415}$$ bitである。ここから、DNA配列で終始コドンよりも開始コドンのほうが情報量が大きいといえるが、タンパク質のコード配列(遺伝子)を考えるとこれは変である。なぜなら、コード配列に終始コドンは一回しか出てこない(定義より出てきたらタンパク質コード配列が終了するため)のに対し、開始コドンはメチオニンをコードするため、コード配列の最初以外にも出てくる可能性があり、終始コドンの情報量の方が大きいはずだからである。これより、 最初の仮定は誤りで、DNAのタンパク質コード配列では塩基配列に偏りがあり、シャノンエントロピーは最大化されていないことが分かる。他にも、生物種によってAT塩基に対するCG塩基の比に偏りがあったり、プロモーターでは特定の塩基配列が生じやすかったりということが知られている。
相互情報量
シャノンエントロピーは、様々な拡張が考えられる。
XとYという別の種類の事象を考えると、それらが同時に生起する確率を$${p(x,y)}$$としたときに、同時に起こる事象の不確かさを表す同時エントロピーは以下のように書ける。
$$
H(X,Y) = -\sum_{x}\sum_{y}p(x,y)\log_2 p(x,y)
$$
また、Yを知った下でのXが生起する確率を条件付確率と呼び、以下のように書ける。
$$
p(x|y)=\frac{p(x,y)}{p(y)}
$$
これを用いると、Yを知った下でのXの不確かさである条件付きエントロピーは以下のように書ける。
$$
H(X|Y) = -\sum_{x}\sum_{y}p(x,y)\log_2 p(x|y)
$$
最後に、XとYの相関の度合いとして、相互情報量を以下のように定義する。
$$
\begin{array}{}I(X,Y) &=& H(X)+H(Y)-H(X,Y) \\\
&=&H(Y)-H(Y|X) \\\
&=&H(X)-H(X|Y)\end{array}
$$
式変形からも分かるように、これは一方の事象について知ったときに、他方の事象についての不確かさがどれだけ減少するかを示した値である。科学的な実験を考えても、Yを直接測定することはできず、Yに関係のあるXを測定することでYについて推定を行うという状況は多いだろう。
DNAデータストレージ
ここまで例としてDNA配列の情報量を計算してきたが、トイプロブレム以上の価値を見出せないかもしれない。しかし、DNAが情報記録の媒体であることを示す技術として、DNAデータストレージがある。これは、DNAを安定かつ空間効率の良い情報記録、保持媒体とみなし、DNAのA,T,G,Cの4文字にデータを書き込むという技術である。基本技術としては、データの書き込みはDNAの全合成、データの読み取りはシークエンシング技術からなる。2012年のGeorge Churchらの論文では、DNAデータストレージのコンセプトが打ち出され、これの空間効率の良さなどが論じられている。CDが$${4\times10^5}$$ bits/mm, HDDが$${3\times10^9}$$ bits/mmといった空間効率なのに対し、DNAは$${5.4\times10^{15}}$$を達成したと報告され、まさに桁違いの効率である。2018年にはMicrosoftもこの分野に参入しており、200MBの情報の記録に成功したことを公表している。それ以後も安定に情報をDNAに保存するためのDNAストレージ用連結符号化スキームに関する論文が出ており、着実に実用化に向けて研究が進められているものとみられる。
参考文献
Next-Generation Digital Information Storage in DNA | Science
Random access in large-scale DNA data storage | Nature Biotechnology
DNA-Aeon provides flexible arithmetic coding for constraint adherence and error correction in DNA storage | Nature Communications
前の連載記事
次の連載記事