カイ2乗検定の検定統計量(丸暗記なし)
検定統計量は差をスケールを合わせてる
t検定では母平均から標本平均がどれくらい差があるのかを
標準偏差で割ってデータによらないスケールを合わせ(標準化)
をしただけだった
$$
t = \frac{\bar{x} - \mu}{\sqrt{\frac{s^2}{n}}}
$$
なぜ差を標準化させる必要があるのかについては
詳しくは前回の記事を参考
https://note.com/outlifest/n/n66ef1b9dfde6
この「差をスケールを合わせて評価する」
という抽象的な核だけおさえていれば
$${\chi^2}$$検定の検定統計量も丸暗記せずになんとなく導出できる
カイ2乗検定統計量のイメージ
$${\chi^2}$$検定の帰無仮説から確認しよう
帰無仮説は
「観測度数は期待度数と差がない」
というものだった
たとえば宿の予約システムにて新機能の実装前と後で
ホテルが予約がされたかされていないかに
差が生まれたかをどうかを確認したいとしよう
(上記を一般にABテストというが今回はベイズABではなく古典的な$${\chi^2}$$検定を考える)
ここでいう
観測度数と期待度数は
新機能実装前に予約したのが5人していないのが95人
新機能実装後に予約したのが15人していないのが85人
この5人,95人,15人,85人が観測度数
これが機能間で予約数の差がなかったら
新機能前と後の数値を平均で計算することで
新機能実装前に予約したのが10人していないのが90人
新機能実装後に予約したのが10人していないのが90人
となりこの10人,90人が期待度数となる
さて「差をスケールを合わせて評価する」というアイデアに戻って
今回のケースに当てはめたい
スケールは期待度数で割り算すれば合わせそうなので
$$
\\{}
\\{}
\sum_i\frac{観測度数_i -期待度数_i}{期待度数_i}
$$
これでもいいかもしれないですが
これに対応する確率分布はないので
有意差があるかどうかを分布表で確認できないからめちゃ困る
そこで和の形が入っている$${\chi^2}$$分布に着目する
観測度数と期待度数の差の2乗和を$${\chi^2}$$統計量として計算すると、この統計量が自由度とともに$${\chi^2}$$分布に近似的に従うことが中心極限定理によって示されている
(詳細は長くなるので割愛)
この近似が成り立つことにより、統計的な有意性の評価が可能になるので
差の2乗を下記のように計算することで検定統計量が導ける
$$
\\{}
\\{}
\sum_i\frac{(観測度数_i -期待度数_i)^2}{期待度数_i}
$$
カイ2乗検定統計量の具体例
先ほどの例に戻って
統計検定量を計算すると
$$
\frac{(5-10)^2}{10} + \frac{(15-10)^2}{10} +\frac{(95-90)^2}{90} +\frac{(85-90)^2}{90} \\
= 5.5556
$$
で自由度1でp値は0.0184(< 0.05)なので
有意水準5%で有意差があることがわかった
また他の検定統計量のざっくりイメージだけ知りたい場合は下記を参照