統計準1級 第9章 区間推定 解説
区間推定は想定する母集団分布が正規分布に従っているか、二項分布に従っているかで考え方を変える
残念ながらここに強く言及しているネット記事がないので、念頭に置いて下記読み進めてもらいたい
正規分布に関する推測
確率変数の母集団分布が$${X 〜 N(\mu,\sigma)}$$に従っているとする
この時パラメータは平均と分散であるので、推定するのも平均と分散である
母平均の区間推定
母平均の区間推定は$${z}$$値を計算することで求められる
$${\bar{X} 〜 N(\mu,\frac{\sigma^2}{n})}$$であるので
まずは標準化をすると
$$
Z = \frac{\bar{X} - \mu}{\sqrt{\frac{\sigma^2}{n}}}
$$
の標準正規分布に従い、
これが有意水準5%だと上側2.5%、97.5%を用いて
$$
P\bigg( z_{0.975}(n) \leq Z ( =\frac{\bar{X} - \mu}{\sqrt{\frac{\sigma^2}{n}}}) \leq z_{0.025}(n) \bigg) = 0.95
$$
かっこの中を$${\mu}$$についてとくと
$$
\bar{X} -1.96\sqrt{\frac{\sigma^2}{n}} \leq \mu \leq \bar{X} + 1.96\sqrt{\frac{\sigma^2}{n}}
$$
母分散がわかっていない時は不偏分散を用いる
母分散の区間推定(1標本)
母分散の区間推定は$${\chi^2}$$値を計算することで求められる
$${\bar{X} 〜 N(\mu,\frac{\sigma^2}{n})}$$から求められる偏差平方和
を$${ T^2 = \sum_{i}(X_i - \bar{X})^2 }$$とすると
$$
\chi^2 = \frac{\sum_{i}(X_i - \bar{X})^2}{\sigma^2} = \frac{T^2}{\sigma^2}
$$
の$${\chi^2}$$分布に従い、
これが有意水準5%だと上側2.5%、97.5%を用いて
$$
P\bigg( \chi^2_{0.975}(n-1) \leq \chi^2 ( =\frac{T^2}{\sigma^2}) \leq \chi^2_{0.025}(n-1) \bigg) = 0.95
$$
かっこの中を$${\sigma^2}$$についてとくと
$$
\frac{T^2}{\chi^2_{0.025}(n-1)} \leq \sigma^2 \leq \frac{T^2}{\chi^2_{0.975}(n-1)}
$$
母分散の区間推定(2標本)
母分散の区間推定を独立した2標本で行う場合は
分散の比を用いて$${F}$$値を計算することで求められる
$$
F= \frac{\frac{V_1}{\sigma_1^2}}{\frac{V_2}{\sigma_2^2}}
$$
$$
P\bigg( F_{0.975}(degree) \leq F= \frac{\frac{V_1}{\sigma_1^2}}{\frac{V_2}{\sigma_2^2}} \leq F_{0.025}(degree) \bigg) = 0.95
$$
かっこの中を$${\frac{\sigma_1^2}{\sigma_2^2}}$$についてとくと
$$
\frac{V_1}{V_2} \times \frac{1}{F_{0.025}(degree)} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{V_1}{V_2} \times \frac{1}{F_{0.975}(degree)}
$$
二項分布に関する推測
確率変数の母集団分布が$${X 〜 Bin(n,p)}$$に従っているとする
この時パラメータはサンプル数と確率であるので、推定するのもサンプル数と確率である
でもパラメーターの推定方法は正規分布と同じような流れになっているのに注意!!
母比率の区間推定(1標本)
母比率の区間推定は$${z}$$値を計算することで求められる
でも二項分布は$${z}$$値は存在しないので、正規分布への近似をまず行う
$${n}$$が十分に大きいとき
ド・モアブル–ラプラスの定理より
下記のように二項分布が正規分布に近似できる
https://en.wikipedia.org/wiki/De_Moivre%E2%80%93Laplace_theorem
$${X 〜 Bin(n,p)}$$であるので$${\hat{p} = \frac{N_i}{n}}$$とすると
二項分布の平均$${E[N]}$$が$${n \hat{p}}$$、
分散$${V[N]}$$が$${n \hat{p}(1 - \hat{p})}$$となる
この平均と分散を標準正規分布の式に代入すると
$$
\begin{aligned}
Z &= \frac{\bar{X} - \mu}{\sqrt{\frac{\sigma^2}{n}}}\\{}\\
&= \frac{ n \hat{p} - np}{\sqrt{n\hat{p}(1 - \hat{p})}}
&= \frac{ \hat{p} - p}{\sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}}
\end{aligned}
$$
の標準正規分布に従い、
これが有意水準5%だと上側2.5%、97.5%を用いて
$$
P\bigg( z_{0.975}(n) \leq Z ( =\frac{ \hat{p} - p}{\sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}}) \leq z_{0.025}(n) \bigg) = 0.95
$$
これを変形して
$$
\hat{p} -1.96\sqrt{\frac{\hat{p}(1 - \hat{p})}{n}} \leq \mu \leq \hat{p} + 1.96\sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}
$$
母比率の差の区間推定(2標本)
母比率の区間推定を独立した2標本で行う場合は
母比率の差を計算することで求められる
1標本二項分布は
平均$${E[N]}$$が$${n \hat{p}}$$、
分散$${V[N]}$$が$${n \hat{p}(1 - \hat{p})}$$となっていたが
2標本二項分布は計算すると(計算は2変数の平均と分散の性質でわかるので省略)
平均$${E[N_1 - N_2]}$$が$${n \hat{p_1} - n \hat{p_2}}$$、
分散$${V[N_1 - N_2]}$$が$${n \hat{p_1}(1 - \hat{p_1}) + n \hat{p_2}(1 - \hat{p_2}) - (-2p_1p_2)(共分散)}$$
となる
$$
P\bigg( z_{0.975}(n) \leq Z ( =\frac{ (\hat{np_1} - \hat{np_2}) - (np_1 - np_2)}{\sqrt{n \hat{p_1}(1 - \hat{p_1}) + n \hat{p_2}(1 - \hat{p_2}) - (-2p_1p_2)}}) \leq z_{0.025}(n) \bigg) = 0.95
$$
これを変形して
$$
(\hat{p_1} - \hat{p_2}) -1.96\sqrt{\frac{\hat{p_1}(1 - \hat{p_1})}{n} + \frac{\hat{p_2}(1 - \hat{p_2})}{n} + \frac{2n\hat{p_1}\hat{p_2}}{n}} \leq \mu \\{}\\\leq (\hat{p_1} - \hat{p_2}) +1.96\sqrt{\frac{\hat{p_1}(1 - \hat{p_1})}{n} + \frac{\hat{p_2}(1 - \hat{p_2})}{n} + \frac{2n\hat{p_1}\hat{p_2}}{n}}
$$