統計準1級 第11章 正規分布に関する検定 解説
はじめに
検定統計量について丸暗記せずに理解できる記事については下記を参照
この章で扱うもの
一般的に検定は以下のようなものがある
この章では、太字に記載している正規分布に関する検定を解説していく
パラメトリック()検定
正規分布に関する検定(11章)<----
t検定
$${\chi^2}$$検定
F検定
二項分布に関する検定(12章)
母比率の(差の)検定
ポアソン分布などその他に関する検定(12章)
適合度検定
尤度比検定
ノンパラメトリック検定(13章)
順位和検定
符号検定
正規分布に関する検定では
1標本内の確率変数$${X_1,X_2 , \cdots, X_n}$$は互いに独立で正規分布に従っていると仮定する
仮定した上で検定統計量が
t検定、$${\chi^2}$$検定、F検定などの標本分布に従う形に変形して
分布表と照らし合わして仮説検定を行なっていく
1標本母平均の検定
標本平均に対して仮定した母平均と差があるかどうか、仮説検定をおこなう
つまり、帰無仮説:$${H_0 : \mu = \mu_0}$$の正しさを確かめる
確率変数$${X_1,X_2 , \cdots, X_n}$$は正規分布に従うので
$${\bar{X_n}}$$も正規分布に従っていて、
平均は$${\mu_0}$$ 、分散は$${\sqrt{\frac{\sigma^2}{n}}}$$となる
----> 帰無仮説:$${H_0 : \mu = \mu_0}$$
この平均と分散から$${\bar{X_n}}$$が従う分布を
$${N 〜 (0,1)}$$の標準正規分布(母分散既知)かt分布(母分散未知)に変換する
----> 検定統計量が従う分布:正規分布(母分散既知)かt分布
上記の工程を標準化というが、標準化に関して詳しくは下記を参照
母分散を用いるときの検定統計量は
$$
Z = \frac{\bar{X} - \mu_0}{\sqrt{\frac{\sigma^2}{n}}}
$$
母分散が未知で標本分散を用いるときの検定統計量は
$$
T = \frac{\bar{X} - \mu_0}{\sqrt{\frac{s^2}{n}}}
$$
2標本母平均の検定
2標本の場合はそれぞれの母平均に差があるかどうか、仮説検定をおこなう
つまり、母平均$${H_0 : \mu_1 = \mu_2}$$の正しさを確かめる
確率変数$${X_1,X_2 , \cdots, X_n}$$は正規分布に従うので
2標本それぞれの標本平均の差$${\bar{X_1} - \bar{X_2}}$$も正規分布に従っていて
平均は$${\mu_1 - \mu_2}$$
分散は(等分散で)$${\sqrt{\frac{\sigma^2}{n_1} + \frac{\sigma^2}{n_2}}}$$
となる
----> 帰無仮説:$${H_0 : \mu_1 = \mu_2}$$
この平均と分散から$${\bar{X_1} - \bar{X_2}}$$が従う分布を
先ほどと同様に$${N 〜 (0,1)}$$の標準正規分布かt分布(母分散未知)に変換するに変換すると
----> 検定統計量が従う分布:正規分布(母分散既知)かt分布
(等分散で)母分散を用いるときの検定統計量は
$$
\begin{aligned}
Z &= \frac{(\bar{X_1} - \bar{X_2}) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma^2}{n_1} +\frac{\sigma^2}{n_2}}}
\\{}\\&= \frac{(\bar{X_1} - \bar{X_2})}{\sigma\sqrt{\frac{1}{n_1} +\frac{1}{n_2}}}
(\because \mu_1 = \mu_2)
\end{aligned}
$$
(等分散で)母分散が未知で標本分散を用いるときの検定統計量は
$$
\begin{aligned}
T &= \frac{(\bar{X_1} - \bar{X_2}) - (\mu_1 - \mu_2)}{\sqrt{\frac{s^2}{n_1} +\frac{s^2}{n_2}}}
\\{}\\&= \frac{(\bar{X_1} - \bar{X_2})}{s\sqrt{\frac{1}{n_1} +\frac{1}{n_2}}}
(\because \mu_1 = \mu_2)
\end{aligned}
$$
※ 今回は等分散の仮定をおいて検定統計量を算出したが、等分散でないときの検定はウェルチの検定という
1標本母分散の検定
不偏分散に対して仮定した母分散と差があるかどうか、仮説検定をおこなう
つまり、$${H_0 : \sigma = \sigma_0}$$の正しさを確かめる
----> 帰無仮説:$${H_0 : \sigma = \sigma_0}$$
母分散と不偏分散の比$${\frac{s^2}{\sigma_0^2} \times n-1}$$は$${\chi^2_{n-1}}$$に従うので(詳しくは下記参照)、この形に確率変数を変換していく
----> 検定統計量が従う分布:$${\chi^2}$$ 分布
なぜ母分散と不偏分散の比$${\frac{s^2}{\sigma_0^2} \times n-1}$$は$${\chi^2_{n-1}}$$に従うのか、下記証明していく
$$
\begin{aligned}
V &= \frac{s^2}{\sigma_0^2} \times n-1 (s^2 : 不偏分散)
\\{}\\&= \frac{1}{\sigma_0^2}\sum_i \frac{(X_i - \bar{X})^2}{n-1}
\\{}\\&= \sum_i\bigg(\frac{ X_i - \bar{X}}{\sigma_0}\bigg)^2
\\{}\\&= \frac{1}{\sigma_0^2} \bigg( \sum_i (X_i - \mu + \mu - \bar{X})^2 \bigg)
\\{}\\&= \frac{1}{\sigma_0^2} \bigg( \sum_i (X_i - \mu)^2 + \sum_i (\mu - \bar{X})^2 + 2\sum_i (x_i - \mu)(\mu - \bar{X})\bigg)
\\{}\\&= \frac{1}{\sigma_0^2} \bigg( \sum_i (X_i - \mu)^2 + n (\mu - \bar{X})^2 + 2 ( n\bar{X}- n\mu)(\mu - \bar{X})\bigg)
\\{}\\&= \frac{1}{\sigma_0^2} \bigg(\sum_i (X_i - \mu)^2 - n(\bar{X} - \mu)^2 \bigg)
\\{}\\&= \bigg(\sum_i \bigg(\frac{X_i - \mu}{\sigma_0}\bigg)^2 - \bigg(\frac{ \bar{X} - \mu}{\sqrt{\frac{\sigma_0^2}{n}}} \bigg) ^2\bigg)
\end{aligned}
$$
ここで$${\sum_i (\frac{X_i - \mu}{\sigma})^2}$$は$${\chi^2_n}$$に従い$${(\frac{ \bar{X} - \mu}{\sqrt{\frac{\sigma^2}{n}}})^2}$$は$${\chi^2_1}$$に従うので
$$
\begin{aligned}
V &= \sum_i \bigg(\frac{X_i - \mu}{\sigma_0}\bigg)^2 - \bigg(\frac{ \bar{X} - \mu}{\sqrt{\frac{\sigma_0^2}{n}}} \bigg) ^2
\\{}\\ & 〜 \chi^2_n - \chi^2_1
\\{}\\ & = \chi^2_{n-1} \because \chi^2分布の再生性
\end{aligned}
$$
となり
$$
V = \frac{s^2}{\sigma_0^2} ( n-1) 〜 \chi^2_{n-1}
$$
が検定統計量となる
2標本母分散の検定
2標本の場合はそれぞれの母分散に差があるかどうか、仮説検定をおこなう
つまり、母分散$${H_0 : \sigma_1 = \sigma_2}$$の正しさを確かめる
----> 帰無仮説:$${H_0 : \sigma_1 = \sigma_2}$$
それぞれの不偏分散は$${\chi^2}$$分布に従っているので、これらの比をとったF分布を検定に用いる
----> 検定統計量が従う分布:F 分布
$$
\begin{aligned}
F &= \frac{\frac{\chi^2_1}{n_1 - 1}}{\frac{\chi^2_2}{n_2 - 1}}
\\{}\\ &= \frac{\frac{1}{n_1 - 1} \sum_i(\frac{X_i - \bar{X}}{\sigma_1})^2}{\frac{1}{n_2 - 1} \sum_i(\frac{X_i - \bar{X}}{\sigma_2})^2}
\\{}\\ &= \frac{\frac{\sum_i(X_i - \bar{X})^2}{n_1 - 1}}{\frac{\sum_i(X_i - \bar{X})^2}{n_2 - 1}} (\because \sigma_1 = \sigma_2)
\end{aligned}
$$
が検定統計量となる