見出し画像

丸暗記しない検定統計量の作り方

この記事の目的

統計学を勉強しているとみんなぶち当たる検定統計量

検定統計量は代表的なものでも下記のようにたくさんあり
とても暗記だけでは乗り切れない
(というか覚える気が失せるwww)

https://www.google.com/url?sa=i&url=https%3A%2F%2Fwww.acha-porute-piipo.com%2Fqualification%2Fqc2%2F03_tokeitekisuiron.html&psig=AOvVaw2xG9_E_1KwLKLWHq8SM5VG&ust=1713865327470000&source=images&cd=vfe&opi=89978449&ved=0CBIQjRxqFwoTCIDCuILE1YUDFQAAAAAdAAAAABA_


そこで今回のこの記事では、検定統計量のイメージを掴んで
各人がその場で検定統計量を作り出すことができることが目的である

検定統計量の基本アイデアは「標準化」

例えば母分散が既知の母平均の検定において
帰無仮説 : $${\mu = \mu_0}$$のもとで
検定統計量は

$$
\begin{aligned}
Z = \frac{\bar{X} - \mu_0}{\sqrt{\frac{\sigma^2}{n}}}
\end{aligned}
$$

となっているが
これは標本平均$${\bar{X}}$$を標準化して
$${Z}$$を標準正規分布$${N(0,1)}$$に変換しているだけである

標準化というのは
データの平均値からの偏差(=平均値を中心0にした場合の値、中心化した値)を標準偏差(分散の平方根)

$$
\begin{aligned}
\frac{X_i - 平均}{\sqrt{分散}}
\end{aligned}
$$

で割ることである

例えば今回の標本平均について考えてみると
$${\bar{X}}$$の期待値と分散は$${n}$$が大きくなるにつれ中心極限定理より
$${\mu, \frac{\sigma^2}{n}}$$となるので

帰無仮説 : $${\mu = \mu_0}$$のもとで確かに

$$
\begin{aligned}
Z = \frac{\bar{X} - (平均)}{\sqrt{(分散)}}= \frac{\bar{X} - \mu_0}{\sqrt{\frac{\sigma^2}{n}}} 
\end{aligned}
$$

となる

なぜ検定統計量を標準化する必要があるのかは
末尾に補足をつけたのでそちらを参照されたい

検定統計量の作り方

実際に検定統計量の作り方をざっくり紹介していく

結論から述べると、
基本アイデア「標準化」で変形して検定統計量を作成しているだけである

前提

互いに独立な確率変数$${X_i}$$の母集団分布が正規分布$${ N(\mu  , \sigma^2)}$$に従っているとし

標本平均$${\bar{X} = \frac{1}{n} \sum_i X_i}$$
不偏分散$${s^2 = \frac{1}{n - 1} \sum_i (X_i - \bar{X})^2}$$
とする

母平均の検定 (標本平均の標準化)

帰無仮説$${\mu = \mu_0}$$のもとで
標本平均を標準化させて検定統計量を作成する

標本平均$${\bar{X}}$$の期待値と分散は帰無仮説のもとで
$${n}$$が大きくなるにつれ中心極限定理より$${\mu (= \mu_0), \frac{\sigma^2}{n}}$$となるので

標準化させると、これが検定統計量となる

$$
\begin{aligned}
Z = \frac{\bar{X} - (平均)}{\sqrt{(分散)}}= \frac{\bar{X} - \mu_0}{\sqrt{\frac{\sigma^2}{n}}} 
\end{aligned}
$$

また、従う確率分布は
標準化させたことにより標準正規分布$${(0, 1)}$$に従う

$$
\begin{aligned}
\bar{X} &\sim N(\mu  (= \mu_0), \frac{\sigma^2}{n}) \\{}\\\rightarrow Z & \sim N(0, 1)
\end{aligned}
$$

母平均の差の検定 (標本平均の標準化)

今度は2群の例で考える

帰無仮説$${\mu_A = \mu_B}$$のもとで
標本平均の差を標準化させて検定統計量を作成する

正規分布の再生性より
標本平均$${\bar{X_A} - \bar{X_B}}$$の期待値と分散は
帰無仮説のもとで$${\mu_A - \mu_B (= 0), \frac{\sigma_A^2}{n_A} + \frac{\sigma_B^2}{n_B}}$$
となるので

標準化させると、これが検定統計量となる

$$
\begin{aligned}
Z = \frac{(\bar{X_A} - \bar{X_B}) - (平均)}{\sqrt{(分散)}}= \frac{(\bar{X_A} - \bar{X_B})}{\sqrt{\frac{\sigma_A^2}{n_A} + \frac{\sigma_B^2}{n_B}}}
\end{aligned} 
$$

また、従う確率分布は
標準化させたことにより標準正規分布$${N(0, 1)}$$に従う

$$
\begin{aligned}
(\bar{X_A} - \bar{X_B} &\sim N(0, \frac{\sigma_A^2}{n_A} + \frac{\sigma_B^2}{n_B}) \\{}\\\rightarrow Z & \sim N(0, 1)
\end{aligned}
$$

母分散の検定 (標準化の二乗和)

帰無仮説$${\sigma^2 = \sigma^2_0}$$のもとで
まず、標準化した確率変数(標準正規分布に従う)を考える

$$
\begin{aligned}
\frac{X_i - \mu}{\sigma_0} \sim N(0, 1)
\end{aligned}
$$

これを二乗して$${\chi^2_{1}}$$にする

$$
\begin{aligned}
\bigg(\frac{X_i - \mu}{\sigma_0}\bigg)^2 \sim \chi^2_{(1)}
\end{aligned}
$$

これを和にして、再生性により$${\chi^2_{n}}$$にする

$$
\begin{aligned}
\sum_{i}\bigg(\frac{X_i - \mu}{\sigma_0}\bigg)^2 \sim \chi^2_{(n)}
\end{aligned}
$$

母平均はわかっていないことが普通なので
$${\mu}$$を$${\bar{X}}$$にする

また標本に対しての分散の不偏推定量は不偏分散$${s^2}$$なので
これを用いて式変形する

自由度を1減らすことができるので従う分布は$${\chi^2_{n - 1}}$$となり
これが検定統計量となる

$$
\begin{aligned}
V = \sum_{i}\bigg(\frac{X_i - \bar{X}}{\sigma_0}\bigg)^2  = \frac{(n - 1) s^2}{\sigma^2_0} \sim \chi^2_{(n - 1)}
\end{aligned}
$$

母分散の比の検定 (標準化の二乗和の比)

今度は2群の例で考える

帰無仮説$${\sigma_A = \sigma_B}$$のもとで
$${\chi^2}$$分布に従う確率変数の比を考える

$${\frac{(n_A - 1) s_A^2}{\sigma^2_A}\sim \chi^2_A}$$の自由度を$${A}$$
$${\frac{(n_B - 1) s_B^2}{\sigma^2_B}\sim \chi^2_B}$$の自由度を$${B}$$

検定統計量を作成するときに
各自の$${\chi^2}$$分布で自由度が違うので、割り算することで標準化っぽいことをする
この比は$${F}$$分布と呼ばれ、これが検定統計量となる

$$
\begin{aligned}
F &= \frac{\frac{(n_A - 1) s_A^2 \times \frac{1}{(n_A -1)}}{\sigma^2_0}}{\frac{(n_B - 1) s_B^2 \times \frac{1}{(n_B -1)}}{\sigma^2_0}} \\{}\\
& = \frac{\frac{\sum_i (X_A - \bar{X_A})^2}{(n_A - 1)}}{\frac{\sum_i (X_B - \bar{X_B})^2}{(n_B - 1)}} \\{}\\
& \sim F_{(n_A - 1,n_B - 1)}
\end{aligned}
$$

【補足】検定統計量はなぜ標準化するのか?

なんでわざわざ検定統計量を出すのかというと
比較したいものとどれだけ差があるかを標準化して
標本間で公平に見るためである

例えば帰無仮説を
「50m走のタイムは7秒である」
「ハンドボール投げのスコアは30mである」
の2種類を確かめるとする

今持っている標本100名の平均について
「50m走の標本平均タイムは8秒である」
「ハンドボール投げの標本平均スコアは40mである」

と分かっているとする

単純に帰無仮説との差を取ると
50m走に関しては「1」秒の差
ハンドボール投げに関しては「10」mの差

になるのでハンドボールの帰無仮説の方が棄却されやすい
と決めていいのだろうか?

言い換えれば
ハンドボール投げの10mの違いと
50m走の10秒の違いは同じだろうか?

いや違うことは明白だろう

ということで差を同じ尺度見る必要があるので
平均を0分散を1に変換する標準化をしているのである



この記事が気に入ったらサポートをしてみませんか?