生物クイズ#8【遺伝子発現変動解析】
問題
あなたはがん細胞とコントロールの正常な細胞で異なる発現をする遺伝子(DEG)を特定したい。次世代シークエンサーを用いてそれぞれの細胞集団から30000遺伝子のトランスクリプトーム情報を取得し、あなたが開発した100%の確率で異なる発現をする遺伝子を異なる発現と判別し、99%の確率で同じ発現をする遺伝子を同じ発現と判別できるアルゴリズムでDEGの特定を行った。がん細胞と正常な細胞で真のDEGが10個あるとすると、このアルゴリズムでDEGと判定された遺伝子のうち、真のDEGは何%だろうか。
答え
3.2 %
解説
アルゴリズムがDEGと判定する中で真のDEGを遺伝子集団をA(真陽性)、アルゴリズムがDEGと判定する中で本当はDEGでない遺伝子集団をB(偽陽性)とする。
この時、ベイズの定理より、$${(事後確率) = \frac{(事前確率) (尤度) } {(周辺確率)}}$$なので、アルゴリズムでDEGと判定された遺伝子のうち、真のDEGの割合は、
$$
\begin{array}{} P(A|A+B) &=& \frac{P(A) P(A+B|A)} {P(A+B)} \times100 \\\ &=& \frac{(\frac{10}{30000} \times1)} {(\frac{10}{30000} \times1) + (\frac{29990}{30000} \times {\frac{1}{100}})} \times 100 \\\ &\risingdotseq& 3.2\end{array}
$$
真陽性の確率が低い場合に条件付確率が直感から外れたものになるという現象を、生命科学研究におけるビックデータ解析を例に出題した。研究においてこれらの結果を解析する際には適切な統計的手法を用いる必要がある。健康診断のスクリーニング検査などにおいても、確率の低い疾患は精度の高い検査であっても偽陽性が多くなることが知られている。このような場面でも、数学的な背景知識があれば、冷静に対応することができる。