統計検定準1級対策⑤:離散型分布
はじめに
統計検定準1級対策第5段です. 今回は『統計学実践ワークブック』第5章 変数変換の範囲にある次の分野についてまとめます.
離散一様分布
ベルヌーイ分布
二項分布
超幾何分布
ポアソン分布
幾何分布
負の二項分布
多項分布
1. 離散一様分布
定義
有限個の事象が等確率で起きる場合の確率分布.
確率変数$${X}$$が$${\{1, 2, \cdots, K\}}$$上の離散一様分布にしたがうとき,
$$
P(X = 1) = P(X = 2) = \cdots = P(X = K) = \frac{1}{K}
$$
となる.
期待値, 分散, 確率母関数
確率変数$${X}$$が$${\{1, 2, \cdots, K\}}$$上の離散一様分布にしたがうとき, $${X}$$の期待値$${E(X)}$$, 分散$${V(X)}$$, 確率母関数$${G(s)}$$は次で与えられる.
$$
\begin{align}
E(X) &= \frac{K + 1}{2} \notag \\
V(X) &= \frac{K^2 - 1}{12} \notag \\
G(s) &= E(s^X) = \frac{s(1 - s^K)}{K(1 - s)} \notag
\end{align}
$$
$${(proof)}$$
$$
\begin{align}
E(X) &= \frac{\sum_{i = 1}^K i}{K} = \frac{\frac{1}{2} K(K + 1)}{K} = \frac{K + 1}{2} \notag \\
E(X^2) &= \frac{\sum_{i = 1}^K i^2}{K} = \frac{\frac{1}{6} K(K + 1)(2K + 1)}{K} = \frac{(K + 1)(2K + 1)}{6} \notag \\
V(X) &= E(X^2) - (E(X))^2 \notag \\
&= \frac{(K + 1)(2K + 1)}{6} - \left(\frac{K + 1}{2} \right)^2 \notag \\
&= \frac{1}{12} (K + 1) (2(2K + 1) - 3(K + 1)) \notag \\
&= \frac{k^2 - 1}{12} \notag
\end{align}
$$
確率母関数$${G(s)}$$は
$$
G(s) = E(s^X) = \frac{s + s^2 + \cdots + s^K}{K} = \frac{s(1 - s^K)}{K(1 - s)}
$$
となる. $${\square}$$
2. ベルヌーイ分布
定義
結果が2通りの試行をベルヌーイ試行という.
ベルヌーイ試行を1回行ったときの成功回数が従う確率分布がベルヌーイ分布である.
ベルヌーイ試行の成功確率を$p$として, ベルヌーイ分布を$Bin(1, p)$と表す.
$${X \sim Bin(1, p)}$$のとき$${Bin(1, p)}$$の確率関数は$${q = 1 - p}$$とすると
$$
P(X = x) = p^x q^{1 - x} \ (x = 0, 1)
$$
つまり,
$$
\begin{align}
P(X = 0) &= 1 - p = q \notag \\
P(X = 1) &= p \notag
\end{align}
$$
である.
期待値, 分散, 確率母関数
$${X \sim Bin(1, p)}$$の期待値$${E(X)}$$, 分散$${V(X)}$$, 確率母関数$${G(s)}$$は次で与えられる.
$$
\begin{align}
E(X) &= p \notag \\
V(X) &= pq \notag \\
G(s) &= E(s^X) = ps + 1 - p = ps + q \notag
\end{align}
$$
$${(proof)}$$
$$
\begin{align}
E(X) &= 0 \cdot q + 1 \cdot p = p \notag \\
E(X^2) &= 0^2 \cdot q + 1^2 \cdot p = p\notag \\
V(X) &= E(X^2) - (E(X))^2 \notag \\
&= p - p^2 \notag \\
&= p(1 - p) \notag \\
&= pq \notag
\end{align}
$$
また,
$$
G(s) = E(s^X) = s^0 q + s^1 p = ps + q
$$
となる. $${\square}$$
3. 二項分布
定義
成功確率$${p}$$の独立なベルヌーイ試行を$${n}$$回行ったときの成功回数がしたがう確率分布を二項分布といい, $${Bin(n, p)}$$と表す.
確率関数$${P(X = x)}$$は次で与えられる.
$$
P(X = x) = {}_n C_x p^x (1 - p)^{n - x} \ (x = 0, 1, \cdots, n)
$$
期待値, 分散, 確率母関数
$${X \sim Bin(n, p)}$$のとき, 期待値, 分散, 確率母関数は次で与えられる.
$$
\begin{align}
E(X) &= np \notag \\
V(X) &= npq \notag \\
G(s) &= E(s^X) = (ps + 1 - p)^n = (ps + q)^n \notag
\end{align}
$$
$${(proof)}$$
$${i}$$回目のベルヌーイ試行において, 成功のとき$${1}$$, 失敗のとき$${0}$$となる確率変数を$${X_i}$$とする. このとき, $${X_i \sim Bin(1, p) \ (i = 1, 2, \cdots, n)}$$となる.
また,
$$
X = X_1 + X_2 + \cdots + X_n
$$
と表せる. $${X_i \ (i = 1, 2, \cdots, n)}$$は独立である.
$$
\begin{align}
E(X) &= E(X_1 + X_2 + \cdots + X_n) = E(X_1) + E(X_2) + \cdots + E(X_n) = np \notag \\
V(X) &= V(X_1 + X_2 + \cdots + X_n) = V(X_1) + V(X_2) + \cdots + V(X_n) = npq \notag
\end{align}
$$
また,
$$
\begin{align}
G(s) &= E(s^X) \notag \\
&= E(s^{(X_1 + X_2 + \cdots + X_n)}) \notag \\
&= E(s^{X_1} s^{X_2} \cdots s^{X_n}) \notag \\
&= E(s^{X_1}) E(s^{X_2}) \cdots E(s^{X_n}) \notag \\
&= (ps + 1 - p)^n \notag \\
&= (ps + q)^n \notag
\end{align}
$$
となる. $${\square}$$
再生性
二項分布は独立なとき, 再生性をもつ. すなわち, $${X_1 \sim Bin(n_1, p), X_2 \sim Bin(n_2, p)}$$が独立であるとき, $${X_1 + X_2 \sim Bin(n_1 + n_2, p)}$$が成り立つ.
$${(proof)}$$
$${X_1, X_2}$$の確率母関数はそれぞれ$${(ps + q)^{n_1}, (ps + q)^{n_2}}$$である. $${X_1 + X_2}$$の確率母関数は$${X_1}$$と$${X_2}$$が独立であるため
$$
\begin{align}
G(s) &= E(s^{X_1 + X_2}) \notag \\
&= E(s^{X_1})E(s^{X_2}) \notag \\
&= (ps + q)^{n_1} (ps + q)^{n_2} \notag \\
&= (ps + q)^{n_1 + n_2} \notag
\end{align}
$$
となる. よって, $${X_1 + X_2 \sim Bin(n_1 + n_2, p)}$$が成り立つ. $${\square}$$
4. 超幾何分布
定義
$${N}$$本のくじの中に$${M}$$本の当たりがある. $${n}$$本のくじを非復元抽出するとき, 引いた当たりの本数がしがたう確率分布を超幾何分布といい, $${HG(N, M, n)}$$と表す.
$${X \sim HG(N, M, n)}$$のとき, $${X}$$の確率関数は
$$
P(X = x) = \frac{{}_M C_x \times {}_{N - M} C_{n - x}}{{}_N C_n} \ (\max \{0, n - (N - M) \} \leq x \leq \min \{n, M \})
$$
である.
期待値, 分散
$${X}$$の期待値, 分散は次の通りである.
$$
\begin{align}
E(X) &= \frac{nM}{N} \notag \\
V(X) &= \frac{nM}{N} \left(1 - \frac{M}{N} \right) \cdot \frac{N - n}{N - 1} \notag
\end{align}
$$
$${(proof)}$$
$$
E(X) = \sum_{x = 0}^n x \frac{{}_M C_x \times {}_{N - M} C_{n - x}}{{}_N C_n} = \sum_{x = 1}^n x \frac{{}_M C_x \times {}_{N - M} C_{n - x}}{{}_N C_n}
$$
$$
\begin{align}
x \cdot \frac{{}_M C_x}{{}_N C_n} &= x \cdot \frac{\frac{M!}{x! (M - x)!}}{\frac{N!}{n! (N - n)!}} \notag \\
&= n \frac{M}{N} \times \frac{\frac{(M - 1)!}{(x - 1)! ((M - 1) - (x - 1))!}}{\frac{(N - 1)!}{(n - 1)! ((N - 1) - (n - 1))!}} \notag \\
&= n \frac{M}{N} \times \frac{{}_{M - 1} C_{x - 1}}{{}_{N - 1} C_{n - 1}} \notag
\end{align}
$$
したがって,
$$
\begin{align}
E(X) &= \sum_{x = 1}^n n \frac{M}{N} \times \frac{{}_{M - 1} C_{x - 1} \times {}_{N - M} C_{n - x}}{{}_{N - 1} C_{n - 1}} \notag \\
&= n \frac{M}{N} \sum_{x = 0}^{n - 1} \frac{{}_{M - 1} C_{x} \times {}_{(N - 1) - (M - 1)} C_{(n - 1) - x}}{{}_{N - 1} C_{n - 1}} \notag
\end{align}
$$
となる.
$$
\sum_{x = 0}^{n - 1} \frac{{}_{M - 1} C_{x} \times {}_{(N - 1) - (M - 1)} C_{(n - 1) - x}}{{}_{N - 1} C_{n - 1}}
$$
は超幾何分布$${HG(N - 1, M - 1, n - 1)}$$の確率の総和であるため, $${1}$$となる. よって, $${E(X) = \frac{nM}{N}}$$が成り立つ.
$$
\begin{align}
E(X(X - 1)) &= \sum_{x = 0}^n x(x - 1) \frac{{}_M C_x \times {}_{N - M} C_{n - x}}{{}_N C_n} \notag \\
&= n \frac{M}{N} \sum_{x = 1}^n (x - 1) \frac{{}_{M - 1} C{x - 1} \times {}_{N - M} C{n - x}}{{}_{N - 1} C{n - 1}} \notag \\
&= n \frac{M}{N} \times (n - 1) \frac{M - 1}{N - 1}\sum_{x = 2}^n \frac{{}_{M - 2} C{x - 2} \times {}_{N - M} C{n - x}}{{}_{N - 2} C{n - 2}} \notag \\
&= n(n - 1) \frac{M(M - 1)}{N(N - 1)} \notag
\end{align}
$$
よって,
$$
\begin{align}
V(X) &= E(X(X - 1)) + E(X) - (E(X))^2 \notag \\
&= n(n - 1) \frac{M(M - 1)}{N(N - 1)} + \frac{nM}{N} - \left( \frac{nM}{N} \right)^2 \notag \\
&= \frac{nM(N - M)(N - n)}{N^2 (N - 1)} \notag \\
&= \frac{nM}{N} \left(1 - \frac{M}{N} \right) \cdot \frac{N - n}{N - 1} \notag
\end{align}
$$
$${\square}$$
二項分布との関係
$${n}$$と$${\frac{M}{N} = p}$$を一定のまま$${N \rightarrow \infty}$$とする($${M = Np \rightarrow \infty}$$とする)と
$$
P(X = x) = \frac{{}_M C_x \times {}_{N - M} C_{n - x}}{{}_N C_n} \ (\max \{0, n - (N - M) \} \leq x \leq \min \{n, M \})
$$
は二項分布$${Bin(n, p)}$$の確率関数
$$
P(X = x) = {}_n C_x p^x (1 - p)^{n - x} \ (x = 0, 1, \cdots, n)
$$
に各$${x}$$で収束し, 復元抽出と非復元抽出の差がなくなる.
$${(proof)}$$
$$
\begin{align}
P(X = x) &= \frac{{}_M C_x \times {}_{N - M} C_{n - x}}{{}_N C_n} \notag \\
&= \frac{\frac{M!}{x! (M - x)!} \frac{(N - M)!}{(n - x)! ((N - M) - (n - x))!}}{\frac{N!}{n! (N - n)!}} \notag \\
&= \frac{n!}{x! (n - x)!} \frac{M!}{(M - x)!} \frac{(N - n)!}{N!} \frac{(N - M)!}{((N - M) - (n - x))!} \notag \\
&= {}_n C_x \frac{M(M - 1) \cdots (M - x + 1)}{N (N - 1) \cdots (N - n + 1)} (N - M)(N - M - 1) \cdots ((N - M) - (n - x) + 1) \notag
\end{align}
$$
$${0 \leq x \leq n}$$より
$$
\begin{align}
P(X = x) &= {}_n C_x \frac{M(M - 1) \cdots (M - x + 1)}{N(N - 1) \cdots (N - x + 1)} \frac{(N - M)(N - M - 1) \cdots ((N - M) - (n - x) + 1)}{(N - x)(N - x - 1) \cdots ((N - x)- (n - x) + 1)} \notag \\
&= {}_n C_x \prod_{i = 0}^x \frac{M - i}{N - i} \prod_{i = 0}^{n - x} \frac{N - M - i}{N - x - i} \notag \\
&= {}_n C_x \prod_{i = 0}^x \frac{\frac{M}{N} - \frac{i}{N}}{1 - \frac{i}{N}} \prod_{i = 0}^{n - x} \frac{1 - \frac{M}{N} - \frac{i}{N}}{1 - \frac{x}{N} - \frac{i}{N}} \notag \\
& \rightarrow {}_n C_x p^x (1 - p)^{n - x} \ (N \rightarrow \infty) \notag
\end{align}
$$
以上より超幾何分布の確率関数が二項分布の確率関数に収束することが示せた. $${\square}$$
補足:復元抽出
$${N}$$本のくじの中に$${M}$$本の当たりがある. $${n}$$本のくじを復元抽出するとき, このときの確率関数は二項分布$${Bin(n, \frac{M}{N})}$$にしたがう.
よって, 復元抽出の場合の期待値, 分散は
$$
\begin{align}
\text{期待値} &= n \frac{M}{N} \notag \\
\text{分散} &= n \frac{M}{N} \left(1 - \frac{M}{N} \right) \notag
\end{align}
$$
となる.
非復元抽出の場合, $${N \rightarrow \infty}$$とすると超幾何分布は二項分布$${Bin(n, \frac{M}{N})}$$に収束するため, これらの期待値, 分散に収束することが確認できる.
$${N}$$が有限の場合は分散の$${\frac{N - n}{N - 1}}$$の部分のみ異なる. $${\frac{N - n}{N - 1}}$$を有限母集団修正という. $${n \geq 2}$$のとき, $${\frac{N - n}{N - 1} < 1}$$より有限集合の非復元抽出は無限の場合と比較して分散が小さくなることが分かる.
5. ポアソン分布
定義
$${\lambda}$$を平均発生率とする. このとき, 特定の時間内に事象が$${x}$$回発生する確率のモデル化に用いられる確率分布であり, ${Po(\lambda)}$$で表される. 確率関数は次で与えられる.
$$
P(X = x) = \frac{e^{- \lambda} \lambda^x}{x!} \ (x = 0, 1, \cdots)
$$
確率関数の導出
ポアソン分布は二項分布から導出される.
二項分布$${Bin(n, p)}$$において, 平均発生率(二項分布の期待値)$${np = \lambda > 0}$$を固定し, $${n \rightarrow \infty}$$として得られる. 実際,
$$
\begin{align}
{}_n C_x p^x (1 - p)^{n - x} &= {}_n C_x \left(\frac{\lambda}{n} \right)^x \left(1 - \frac{\lambda}{n} \right)^{n - x} \notag \\
&= \frac{n!}{x! (n - x)!} \left(\frac{\lambda}{n} \right)^x \left(1 - \frac{\lambda}{n} \right)^{n - x} \notag \\
&= \frac{\lambda^x}{x!} \frac{n(n - 1) \cdots (n - x + 1)}{n^x} \left((1 - \frac{\lambda}{n})^\frac{- n}{\lambda}\right)^{- \lambda} \left(1 - \frac{\lambda}{n} \right)^{- x}\notag \\
& \rightarrow \frac{\lambda^x}{x!} e^{- \lambda} \notag
\end{align}
$$
となり, 二項分布の確率関数からポアソン分布の確率関数が得られた.
期待値, 分散, 確率母関数
$${X \sim Po(\lambda)}$$のとき, 期待値, 分散, 確率母関数は次のようになる.
$$
\begin{align}
E(X) &= \lambda \notag \\
V(X) &= \lambda \notag \\
G(s) &= E(s^X) = e^{(s - 1) \lambda} \notag
\end{align}
$$
$${(proof)}$$
確率母関数$G(s)$は
$$
G(s) = E(s^X) = \sum_{x = 0}^\infty s^x \frac{e^{- \lambda} \lambda^x}{x!} = e^{- \lambda} \sum_{x = 0}^\infty \frac{(s \lambda)^x}{x!}
$$
マクローリン展開より$${e^x = \sum_{k = 0}^\infty \frac{x^k}{k!}}$$であるから
$$
G(s) = e^{- \lambda} e^{\lambda s} = e^{(s - 1)\ \lambda}
$$
となる.
$$
\begin{align}
G^\prime (s) &= \lambda e^{(s - 1)\ \lambda} \notag \\
G^{\prime \prime} (s) &= \lambda^2 e^{(s - 1)\ \lambda} \notag
\end{align}
$$
であるため,
$$
\begin{align}
E(X) &= G^\prime (1) = \lambda \notag \\
V(X) &= E(X(X - 1)) + E(X) - (E(X))^2 \notag \\
&= G^{\prime \prime} (1) + E(X) - (E(X))^2 \notag \\
&= \lambda^2 + \lambda - \lambda^2 \notag \\
&= \lambda \notag
\end{align}
$$
となる.
再生性
ポアソン分布は再生性をもつ. すなわち$${X_1 \sim Po(\lambda_1), X_2 \sim Po(\lambda_2)}$$が独立であるとき, $${X_1 + X_2 \sim Po(\lambda_1 + \lambda_2)}$$が成り立つ.
$${(proof)}$$
$${X_1, X_2}$$の確率母関数はそれぞれ$${e^{(s - 1)\ \lambda_1}, e^{(s - 1)\ \lambda_2}}$$である. $${X_1 + X_2}$$の確率母関数は$${X_1}$$と$${X_2}$$が独立であるため
$$
\begin{align}
G(s) &= E(s^{X_1 + X_2}) \notag \\
&= E(s^{X_1})E(s^{X_2}) \notag \\
&= e^{(s - 1)\ \lambda_1} \cdot e^{(s - 1)\ \lambda_2} \notag \\
&= e^{(s - 1)\ (\lambda_1 + \lambda_2)} \notag
\end{align}
$$
となる. よって, $${X_1 + X_2 \sim Po(\lambda_1 + \lambda_2)}$$が成り立つ. $${\square}$$
補足:ポアソン分布と二項分布の期待値, 分散の関係性
二項分布の期待値, 分散からポアソン分布の期待値を推測することができる. 実際, $${X \sim Bin(n, p)}$$において,
$$
\begin{align}
E(X) &= np \notag \\
V(X) &= np(1 - p) \notag
\end{align}
$$
であった. $${np = \lambda > 0}$$を固定し, $${n \rightarrow \infty}$$でポアソン分布を導出した. これを期待値, 分散にもあてはめると
$$
\begin{align}
E(X) &= \lambda \rightarrow \lambda \ (n \rightarrow \infty) \notag \\
V(X) &= \lambda (1 - \frac{\lambda}{n}) \rightarrow \lambda \ (n \rightarrow \infty) \notag
\end{align}
$$
が得られる.
6. 幾何分布
定義
独立な成功確率$${p}$$のベルヌーイ試行を繰り返すとき, 初めて成功がおきるまでの失敗の回数$${X}$$が従う分布を幾何分布といい, $${Geo(p)}$$と表す.
$${X \sim Geo(p)}$$のとき, 確率関数$${P(X = x)}$$は$${1 - p = q}$$とすると
$$
P(X = x) = p(1 - p)^x = pq^x \ (x = 0, 1, 2, \cdots)
$$
となる.
これは初項$${pq}$$, 公比$${q}$$の等比数列である.
期待値, 分散, 確率母関数
$${X \sim Geo(p)}$$のとき, 期待値, 分散, 確率母関数は次で与えられる.
$$
\begin{align}
E(X) &= \frac{1 - p}{p} = \frac{q}{p} \notag \\
V(X) &= \frac{1 - p}{p^2} = \frac{q}{p^2} \notag \\
G(s) &= E(s^X) = \frac{p}{1 - (1 - p)s} = \frac{p}{1 - qs} \notag
\end{align}
$$
$${(proof)}$$
確率母関数$${G(s)}$$は$${|s| < \frac{1}{q}}$$のとき
$$
\begin{align}
G(s) &= E(s^X) \notag \\
&= \sum_{x = 0}^\infty s^x pq^x \notag \\
&= \sum_{x = 0}^\infty p(sq)^x \notag \\
&= p + \frac{pqs}{1 - qs} = \frac{p}{1 - qs} \notag
\end{align}
$$
となる.
$$
\begin{align}
G^{\prime} (s) &= \frac{pq}{(1 - qs)^2} \notag \\
G^{\prime \prime} (s) &= \frac{- 2 pq(1 - qs) \cdot (- q)}{(1 - qs)^4} = \frac{2pq^2}{(1 - qs)^3} \notag \\
\end{align}
$$
よって,
$$
\begin{align}
E(X) &= G^{\prime} (1) = \frac{pq}{(1 - q)^2} = \frac{pq}{p^2} = \frac{q}{p} \notag \\
V(X) &= E(X(X - 1)) + E(X) - (E(X))^2 \notag \\
&= G^{\prime \prime} (1) + E(X) - (E(X))^2 \notag \\
&= \frac{2pq^2}{(1 - q)^3} + \frac{q}{p} - \frac{q^2}{p^2} \notag \\
&= \frac{2q^2}{p^2} + \frac{q}{p} - \frac{q^2}{p^2} \notag \\
&= \frac{q^2}{p^2} + \frac{q}{p} \notag \\
&= \frac{q^2 + pq}{p^2} \notag \\
&= \frac{q}{p^2} \ (\because p + q = 1)\notag
\end{align}
$$
となる. $${\square}$$
無記憶性
幾何分布は無記憶性と呼ばれる次の性質をもつ.
$${X \sim Geo(p)}$$のとき
$$
P(X \geq t_1 + t_2 | X \geq t_1) = P(X \geq t_2) \ (t_1, t_2 = 0, 1, 2, \cdots)
$$
が成り立つ.
$${(proof)}$$
$${P(X \geq t)}$$は初めの$${t}$$回がすべて失敗する確率と同値である. よって,
$$
P(X \geq t) = q^t
$$
となる. したがって,
$$
P(X \geq t_1 + t_2 | X \geq t_1) = \frac{q^{t_1 + t_2}}{q^{t_1}} = q^{t_2} = P(X \geq t_2)
$$
が得られる. $${\square}$$
7. 負の二項分布
成功確率$${p}$$のベルヌーイ試行を繰り返すとき, $${r}$$回目の成功が起きるまでの失敗の回数を$${X}$$とする. このとき$${X}$$の分布を負の二項分布といい, $${NB(r, p)}$$と表す.
$${X \sim NB(r, p)}$$のとき, $${X}$$の確率関数は
$$
P(X = x) = {}r H_x p^r (1 - p)^x = {}{r + x - 1} C_x p^r (1 - p)^x \ (x = 0, 1, 2, \cdots)
$$
となる.
$${r = 1}$$のときは幾何分布と一致する.
また, $${X_1, X_2, \cdots, X_r}$$が互いに独立に幾何分布$${Geo(p)}$$に従うとき, $${X = X_1 + X_2 + \cdots + X_r \sim NB(r, p)}$$が成り立つ.
$${(proof)}$$
確率母関数を用いて示す. $${X}$$の確率母関数$${G_X(s)}$$は
$$
G_X(s) = E(s^X) = E(s^{X_1 + X_2 + \cdots + X_r}) = E(s_{X_1}) E(s_{X_2}) \cdots E(s_{X_r})
$$
となる. $${|s| < \frac{1}{q}}$$ において, $${E(s^{X_i}) = \frac{p}{1 - qs} (i = 1, 2, \cdots, r)}$$であった. よって,
$$
G_X(s) = \left( \frac{p}{1 - qs} \right)^r \ (|s| < \frac{1}{q})
$$
となる. また, $${Y \sim NB(r, p)}$$の確率母関数$${G_Y(s)}$$は
$$
\begin{align}
G_Y (s) &= E(s^Y) \notag \\
&= \sum_{y = 0}^\infty s^y {}{r + y - 1} C_y p^r (1 - p)^y \notag \\
&= p^r \sum{y = 0}^\infty {}{r + y - 1} C_y ((1 - p)s)^y \notag \\
&= \frac{p^r}{(1 - (1 - p)s)^r} \sum{y = 0}^\infty {}_{r + y - 1} C_y (1 - (1 - p)s)^r ((1 - p)s)^y \notag
\end{align}
$$
$${\sum_{y = 0}^\infty {}_{r + y - 1} C_y (1 - (1 - p)s)^r ((1 - p)s)^y}$$は負の二項分布$${NB(r, 1 - p)}$$の確率関数の総和であるため$${1}$$となる. よって,
$$
G_Y (s) = \frac{p^r}{(1 - (1 - p)s)^r} = \frac{p^r}{(1 - qs)^r} = G_X(s)
$$
となり$${X}$$と$${Y}$$の確率母関数が一致する. よって, $${X = X_1 + X_2 + \cdots + X_r \sim NB(r, p)}$$が成り立つ. $${\square}$$
期待値, 分散, 確率母関数
$${X \sim NB(r, p)}$$の期待値, 分散. 確率母関数は次のようになる.
$$
\begin{align}
E(X) &= \frac{r(1 - p)}{p} = \frac{rq}{p} \notag \\
V(X) &= \frac{r(1 - p)}{p^2} = \frac{rq}{p^2} \notag \\
G(s) &= E(s^X) = \left(\frac{p}{1 - (1 - p)s} \right)^r = \left(\frac{p}{1 - qs} \right)^r \notag
\end{align}
$$
$${(proof)}$$
上記より確率母関数については証明済みである. また, $${X_1, X_2, \cdots, X_r}$$が互いに独立に幾何分布$${Geo(p)}$$に従うとき, $${X = X_1 + X_2 + \cdots + X_r \sim NB(r, p)}$$が成り立つことを使えば, 期待値, 分散は$${Geo(p)}$$の期待値分散の$${r}$$倍となることがわかる. $${\square}$$
再生性
負の二項分布は再生性をもつ. すなわち$${X_1 \sim NB(r_1, p), X_2 \sim Po(r_2, p)}$$が独立であるとき, $${X_1 + X_2 \sim NB(r_1 + r_2, p)}$$が成り立つ.
$${(proof)}$$
$${X_1, X_2}$$の確率母関数はそれぞれ$${\left(\frac{p}{1 - qs} \right)^{r_1}, \left(\frac{p}{1 - qs} \right)^{r_2}}$$である. $${X_1 + X_2}$$の確率母関数は$${X_1}$$と$${X_2}$$が独立であるため
$$
\begin{align}
G(s) &= E(s^{X_1 + X_2}) \notag \\
&= E(s^{X_1})E(s^{X_2}) \notag \\
&= \left(\frac{p}{1 - qs} \right)^{r_1} \left(\frac{p}{1 - qs} \right)^{r_2} \notag \\
&= \left(\frac{p}{1 - qs} \right)^{r_1 + r_2} \notag
\end{align}
$$
となる. よって, $${X_1 + X_2 \sim NB(r_1 + r_2, p)}$$が成り立つ. $${\square}$$
8. 多項分布
$${K \geq 2}$$個の結果$${1, 2, \cdots, K}$$のいずれか$${1}$$つが起こる試行を考える. 結果$${j (1 \leq j \leq K)}$$が起こる確率を$${p_j}$$とすると
$$
p_j > 0 \ (j = 1, 2, \cdots, K) \\
p_1 + p_2 + \cdots + p_K = 1
$$
となる. この試行を独立に$${n}$$回行うとき, 結果$${j}$$が起こる回数を$${X^{(j)}}$$とする. このとき, $${X = (X^{(1)}, X^{(2)}, \cdots, X^{(K)})}$$の従う分布を多項分布とよび, $${M(n; p_1, \cdots, p_K)}$$と表す.
$${K = 2}$$のときは二項分布となる.
$${(X^{(1)}, X^{(2)}, \cdots, X^{(K)}) \sim M(n; p_1, \cdots, p_K)}$$の確率関数は
$$
P(X^{(1)} = x^{(1)}, \cdots, X^{(K)} = x^{(K)}) = \frac{n!}{x^{(1)}! \cdots x^{(K)}!} {p_1}^{x_1} \cdots {p_K}^{x_K}
$$
となる.
また, $${\sum_{j = 1}^K X^{(j)} = n}$$となる.
さらに, $${(X^{(1)}, X^{(2)}, \cdots, X^{(K)}) \sim M(n; p_1, \cdots, p_K)}$$のとき, $${X_j \sim Bin(n, p_j)}$$が成り立つ.
$${(proof)}$$
$${X_j}$$は$${n}$$回の試行のうち$${j}$$が起こる回数である. よって, これは二項分布の定義より成り立つ. $${\square}$$
期待値, 分散, 確率母関数
$${(X^{(1)}, X^{(2)}, \cdots, X^{(K)}) \sim M(n; p_1, \cdots, p_K)}$$において, 次が成り立つ.
$$
\begin{align}
E(X^{(j)}) &= n p_j \notag \\
V(X^{(j)}) &= n p_j (1 - p_j) \notag \\
Cov(X^{(i)}, X^{(j)}) &= - n p_i p_j \notag \\
\rho (X^{(i)}, X^{(j)}) &= - \frac{\sqrt{p_i p_j}}{\sqrt{(1 - p_i)(1 - p_j)}} \notag \\
G(s_1, s_2, \cdots, s_K) &= E({s_1}^{X^{(1)}} \cdots {s_K}^{X^{(K)}}) = (p_1 s_1 + \cdots p_K s_K)^n \notag
\end{align}
$$
$${(proof)}$$
$${E(X^{(j)}), V(X^{(j)})}$$は$${X_j \sim Bin(n, p_j)}$$より明らか.
$$
\begin{align}
E(X^{(1)}X^{(2)}) &= \sum_{x^{(1)} = 0}^n \sum_{x^{(2)} = 0}^n x_1 x_2 \frac{n!}{x^{(1)}! \cdots x^{(K)}!} {p_1}^{x_1} \cdots {p_K}^{x_K} \notag \\
&= p_1 p_2 \sum_{x^{(1)} = 1}^n \sum_{x^{(2)} = 1}^n \frac{n!}{(x^{(1)} - 1)! (x^{(2)} - 1)! x^{(3)}! \cdots x^{(K)}!} {p_1}^{x_1 - 1} {p_2}^{x_2 - 1} {p_3}^{x_3} \cdots {p_K}^{x_K} \notag \\
&= n(n - 1) p_1 p_2 \sum_{x^{(1)} = 1}^n \sum_{x^{(2)} = 1}^n \frac{(n - 2)!}{(x^{(1)} - 1)! (x^{(2)} - 1)! x^{(3)}! \cdots x^{(K)}!} {p_1}^{x_1 - 1} {p_2}^{x_2 - 1} {p_3}^{x_3} \cdots {p_K}^{x_K} \notag
\end{align}
$$
$${\sum_{x^{(1)} = 1}^n \sum_{x^{(2)} = 1}^n \frac{(n - 2)!}{(x^{(1)} - 1)! (x^{(2)} - 1)! x^{(3)}! \cdots x^{(K)}!} {p_1}^{x_1 - 1} {p_2}^{x_2 - 1} {p_3}^{x_3} \cdots {p_K}^{x_K}}$$は多項分布$${M(n - 2; p_1, \cdots, p_K)}$$の確率関数の総和になっているので$${1}$$となる. よって,
$$
E(X^{(1)}X^{(2)}) = n(n - 1) p_1 p_2
$$
である. 同様の議論により$${E(X^{(i)}X^{(j)}) = n(n - 1) p_i p_j}$$となる.
$$
\begin{align}
Cov(X^{(i)}, X^{(j)}) &= E(X^{(i)} X^{(j)}) - E(X^{(i)})E(X^{(j)}) \notag \\
&= n(n - 1) p_i p_j - n^2 p_i p_j \notag \\
&= - n p_i p_j \notag
\end{align}
$$
$$
\begin{align}
\rho (X^{(i)}, X^{(j)}) &= \frac{Cov(X^{(i)}, X^{(j)})}{\sqrt{V(X^{(i)}) V(X^{(j)})}} \notag \\
&= \frac{- n p_i p_j}{\sqrt{n p_i (1 - p_i) \cdot n p_j (1 - p_j)}} \notag \\
&= - \frac{\sqrt{p_i p_j}}{\sqrt{(1 - p_i)(1 - p_j)}} \notag
\end{align}
$$
$$
\begin{align}
G(s_1, s_2, \cdots, s_K) &= E({s_1}^{X^{(1)}} \cdots {s_K}^{X^{(K)}}) \notag \\
&= \sum_{x_1 + x_2 + \cdots + x_K = n} {s_1}^{x^{(1)}} \cdots {s_K}^{x^{(K)}} \frac{n!}{{x_1}! \cdots {x_K}!} {p_1}^{x_1} \cdots {p_K}^{x_K} \notag \\
&= \sum_{x_1 + x_2 + \cdots + x_K = n} \frac{n!}{{x_1}! \cdots {x_K}!} {(p_1 s_1)}^{x_1} \cdots {(p_K s_K)}^{x_K} \notag \\
&= (p_1 s_1 + \cdots p_K s_K)^n \notag
\end{align}
$$
最後の式変形は多項定理を用いた. $${\square}$$
参考
この記事が気に入ったらサポートをしてみませんか?