二項分布とその期待値・分散
ベルヌーイ試行
ベルヌーイ試行は、結果が成功か失敗(結果を分類したときに2通りのみが考えられる)のいずれかの2つしかない確率的な試行を指します。この試行は、フランスの数学者であるジャック・ベルヌーイにちなんで名付けられた。
ベルヌーイ試行では、各試行が独立であり、成功の確率と失敗の確率が一定であると仮定されます。例えば、コインの表裏を予測する試行や、サイコロの特定の目が出るかどうか(例えば1の目が出るか、それ以外の目が出るか)を予測する試行などがベルヌーイ試行の例です。
成功と失敗の確率をそれぞれ「p」と「q」と表すと、p+q=1となる。また、ベルヌーイ試行の結果は、確率変数Xで表され、成功の場合はX=1、失敗の場合はX=0とします。
二項分布
二項分布は、ベルヌーイ試行を複数回独立に行った場合における、成功の回数に関する確率分布。
具体的には、n回の独立したベルヌーイ試行を行った際に、成功がk回起こる確率を表します。この確率は以下の二項係数と成功確率の積で与えられます。成功の確率を「p」、失敗の確率は「q=1-p」とすると
$$
P(X=k) = \dbinom{n}{k}p^kq^{n-k}
$$
これは高校数学の反復試行の式と同じなので理解できるはず。10回サイコロを投げて1の目が3回出る確率を例にすると
$$
P(X=3)=\dbinom{10}{3}\Bigl(\dfrac{1}{6}\Bigl)^3\Bigl(\dfrac{5}{6}\Bigl)^7\simeq0.155
$$
となり約15.5%であることが分かります。
横軸にkをとって分布をとったものが二項分布で、nやpの値によって形が決まるので$${B(n,p)}$$と表します。下にnとpの変化で二項分布がどう変化するかの図を示します。引用元↓
二項分布の期待値
二項分布の期待値は以下の式で表せる。二項分布$${B(n,p)}$$に従う確率変数$${X}$$の期待値は
$$
E[X]=np
$$
確率変数の期待値は平均値とみなすことができるので、平均で$${np}$$回注目している事象が起きることになります。10回サイコロを振って1が出る期待値(平均して何回出るか)は
$$
E[1]=10×\dfrac{1}{6}=\dfrac{5}{3}\simeq1.67
$$
と計算され平均で約1.67回出ることになります。この式の証明を2通り紹介します。
期待値の証明Ⅰ
$${k}$$回目に当たったとき1、外れたとき0をとる確率変数を$${X_k}$$とすると$${X}$$は
$$
X=X_1+X_2+・・・+X_n
$$
である。(X=3ならば3回あたったことになる)
期待値の線形性より以下のことが言える。(線形性が分からない人は勉強しましょう)
$$
E[X]=E[X_1]+E[X_2]+・・・+E[X_n]
$$
$${E[X_k]=p}$$なので、$${E[X]=np}$$が示される。
期待値の証明Ⅱ
こちらの証明は少し難しめです。準備として組み合わせの計算について以下の性質を示しておきます。
$$
\begin{split}
k×{}_n C_k&=r×\dfrac{n!}{r!(n-r)!}\\
&=n×\dfrac{(n-1)!}{(r-1)!(n-r)!}\\
&=n×{}_{n-1}C_{k-1}
\end{split}
$$
期待値の定義から証明を進める。
$$
\begin{split}
E[X]&=\sum\limits_{k=0}^{n}kP(X=k)\\
&=\sum\limits_{k=1}^{n}k\dbinom{n}{k}p^kq^{n-k}\\
&=n\sum\limits_{k=1}^{n}\dbinom{n-1}{k-1}p^kq^{n-k}\\
&=np\sum\limits_{k=1}^{n}\dbinom{n-1}{k-1}p^{k-1}q^{n-k}\\
&=np\sum\limits_{k=0}^{n-1}\dbinom{n-1}{k}p^{k}q^{n-1-k}\\
&=np(p+q)^{n-1}\\
&=np
\end{split}
$$
となり$${E[X]=np}$$が示される。
二項分布の分散
二項分布の分散は以下の式になる。二項分布$${B(n,p)}$$に従う確率変数$${X}$$の分散を$${V[X]}$$とすると
$$
V[X]=np(1-p)=npq
$$
10回サイコロを振って1が出るか否かのベルヌーイ試行で考えると
$$
V[X]=10×\dfrac{1}{6}×\dfrac{5}{6}=\dfrac{25}{18}\simeq1.39
$$
となり約1.39と計算できます。こちらも証明を二つ示します。
分散の証明Ⅰ
分散に関して以下の式が成り立つ。確率変数$${X,Y}$$について
$$
V[X+Y]=V[X]+V[Y]+2Cov[X,Y]
$$
ここで、$${Cov}$$は共分散である。(分からない人は検索してみてください)
ここで期待値の時と同様に$${X_k}$$を考えると、それぞれの確率変数に相関はない(コインの裏表で考えるとわかりやすいが、結果はランダムなので1回目と2回目の結果の間に数学的な関係はない)ので共分散の部分は0になり、分散にも期待値同様の線形性があるとみなすことができる。よって
$$
V[X]=V[X_1]+V[X_2]+・・・+V[X_n]=nV[X_k]
$$
要するに$${V[X_k]}$$を求めればよい。分散の性質から
$$
V[X_k]=E[X_k^2]-(E[X_k])^2\\
E[X_k^2]=0^2×p+1^2×p=p\\
E[X_k]=0×p+1×p=p\\
∴V[X_k]=p-p^2=p(1-p)=pq
$$
以上から$${V[X]=npq}$$となる
分散の証明Ⅱ
$${V[X]=E[X^2]-E[X]^2}$$を用いる。$${E[X]}$$は計算済みなので$${E[X^2]}$$を計算する。期待値の定義から
$$
\begin{split}
E[X^2]&=\sum\limits_{k=0}^{n}k^2P(X=k)\\
&=\sum\limits_{k=1}^{n}k(k-1)\dbinom{n}{k}p^kq^{n-k}+\sum\limits_{k=1}^{n}k\dbinom{n}{k}p^kq^{n-k}\\
&=n\sum\limits_{k=2}^{n}(k-1)\dbinom{n-1}{k-1}p^kq^{n-k}+E[X]\\
&=n(n-1)\sum\limits_{k=2}^{n}\dbinom{n-2}{k-2}p^kq^{n-k}+np\\
&=n(n-1)p^2\sum\limits_{k=2}^{n}\dbinom{n-2}{k-2}p^{k-2}q^{n-k}+np\\
&=n(n-1)p^2\sum\limits_{k=0}^{n-2}\dbinom{n-2}{k}p^kq^{n-2-k}+np\\
&=n(n-1)p^2(p+q)^{n-2}+np\\
&=n(n-1)p^2+np\\
&=n^2p^2-np^2+np\\
\end{split}
$$
よって分散は
$$
\begin{split}
V[X]&=E[X^2]-E[X]^2\\
&=n^2p^2-np^2+np-n^2p^2\\
&=np(1-p)=npq
\end{split}
$$