二項分布からはじめる超幾何分布解説
はじめに
まず前提として
「二項分布と超幾何分布はほぼ同じ」
これを理解することが大事なのだが、
ほんまかと思う人はこれを見てほしい
二項分布:
$$
\begin{aligned}
& E[X] = np \\
& V[X]= np(1-p)\\
\end{aligned}
$$
超幾何分布:
$$
\begin{aligned}
E[X] & = n × \frac{M}{N} \\
& =np \\{}\\
V[X] & = n × \frac{M(N - M)}{N^2} × \frac{N - n}{N - 1} \\
& = np(1-p) × \frac{N - n}{N - 1}\\
\end{aligned}
$$
分散だけ$${\frac{N - n}{N - 1}}$$の比率だけ違うだけで
平均も分散もほぼ同じ形をしている!!
なので今回は
二項分布と超幾何分布
の違いに着目しながら超幾何分布を紹介していく
二項分布と超幾何分布の違い
二項分布と超幾何分布の違いはたったこれだけ
二項分布と超幾何分布の違いを同じ例で考えたらわかりやすい
例えば
赤玉4個白玉6個の合計10個あって
合計4個取り出して赤玉3個取り出したいとする
二項分布のときは
1回玉を取り出したら戻す、それを4回
超幾何分布のときは
1回玉を取り出したら戻さない、それを4回
ちなみにこれらの確率分布は
赤玉の取り出す数を確率変数$${X}$$とすると
二項分布 :
$$
\begin{aligned}
& P(X = 3) = {}_{10} C_{3} (\frac{4}{10})^3 (\frac{6}{10})^7
\end{aligned}
$$
超幾何分布 :
$$
\begin{aligned}
& P(X = 3) = \frac{{}_{4} C_{3} ×{}_{6} C_{1}}{{}_{10} C_{4}}
\end{aligned}
$$
ちなみに、なぜ確率分布が違うのかというと
二項分布の時は
1回玉を取り出したら戻すので
常に赤玉の確率が$${\frac{4}{10}}$$で変わらない
超幾何分布の時は
1回玉を取り出したら確率が変わるので
最初に赤玉を取り出す確率は$${\frac{4}{10}}$$だが
次回の赤玉の確率が$${\frac{3}{9}}$$か$${\frac{4}{9}}$$に変化する
また
取り出す or 取り出さないを一般化すると
元々の全部の玉(母集団が)変化する or しない
になるのでここで
教科書で出てくる下記の文言も理解できるだろう
となる
ほんまに超幾何分布の極限は二項分布なのか
さて二つの分布の違いを紹介したのだが
実は母集団を無限に増やしたら
してほぼ同じになる!!
超幾何分布の平均と分散は
$$
\begin{aligned}
E[X] & = n × \frac{M}{N} \\
& =np \\{}\\
V[X] & = n × \frac{M(N - M)}{N^2} × \frac{N - n}{N - 1} \\
& = np(1-p) × \frac{N - n}{N - 1}\\
\end{aligned}
$$
だったがこれを$${ N \rightarrow \infty}$$にすると
$${ \frac{N - n}{N - 1} \rightarrow 1}$$なので
$$
\begin{aligned}
E[X] & = n × \frac{M}{N} \\
& =np \\{}\\
V[X] & = n × \frac{M(N - M)}{N^2} × \frac{N - n}{N - 1} \\
& = np(1-p) × \frac{N - n}{N - 1}
\\ & \rightarrow np(1-p)
\end{aligned}
$$
になるので
二項分布の平均と分散に収束することがわかる
これは
$${ N \rightarrow \infty}$$によって
超幾何分布の有限母集団が無限母集団になったので
二項分布に収束したと解釈すると簡単だ