適合度検定と独立性の検定
カイ二乗分布について
$${\chi ^2}$$分布というものを聞いたことがある人は多いと思います。これは、期待値との乖離があるかどうかを調べるときに用いる分布だと考えてください。「乖離」がポイントなので、カイ二乗分布と語呂が似てて覚えやすいのでは?
適合度検定
サイコロを30回振ったら、1,2,3,4,5,6の目はそれぞれ5回出てくるでしょうか?
パターンA
サイコロの出目: 1 2 3 4 5 6
実際の出た回数: 5 6 5 4 6 4
これぐらいなら、まあまあ精度の高いサイコロではないでしょうか。
パターンB
サイコロの出目: 1 2 3 4 5 6
実際の出た回数: 9 5 3 4 5 4
この場合は、偏りがすごいですね。1が9回も出てます。
普通のサイコロを考えると、それぞれ確率は1/6で出ます。確率通りに考えると、つまり
期待値
サイコロの出目: 1 2 3 4 5 6
回数の期待値: 5 5 5 5 5 5
はこのように5になるはずですよね。
パターンA,Bのような実際の出た目と期待値では乖離があるかどうかを検定するには、$${\chi ^2}$$分布を用います。
検定をしていこう
パターンAは、なんとなく適合してそうと分かります。パターンBのように、乖離していると確信をしたい場合にこのような検定を行うと思います。
なので、帰無仮説を乖離してないとし、これを棄却させることで乖離したと確信を得たいと思います。(対立仮説:乖離しているを採用するということ)
サイコロが有効かどうか確認したいので、帰無仮説(サイコロが公正である)としましょう。
適合度検定では次のような式を検定統計量とします
$${\sum\dfrac{(実際の値ー期待値)^2}{期待値}}$$
$${X_i,N,n,P_i}$$を確率変数、データの大きさ、確率変数の数、確率とすると
$${\sum_{i=1}^{n}\dfrac{(X_iーNP_i)^2}{NP_i}}$$となります
また、は5%とします。確率変数の数から1を引いた数が自由度なので、棄却域は$${D=(11.07,\infin)}$$です。(カイ二乗分布より)
よって
パターンAの検定統計量は
$${\frac{(5-5)^2}{5}+\frac{(6-5)^2}{5}+\frac{(5-5)^2}{5}+\frac{(4-5)^2}{5}+\frac{(6-5)^2}{5}+\frac{(4-5)^2}{5}=4/5=0.8}$$
パターンBの検定統計量は
$${\frac{(9-5)^2}{5}+\frac{(5-5)^2}{5}+\frac{(3-5)^2}{5}+\frac{(4-5)^2}{5}+\frac{(5-5)^2}{5}+\frac{(4-5)^2}{5}=\frac{22}{5}=4.4}$$
となり、
パターンA,Bも、計算した統計量が有意水準5%での臨界値(11.07)よりも小さいため、帰無仮説(サイコロが公正である)は棄却されません。結論として、与えられたデータではサイコロが公正でないと結論づける十分な証拠が得られません。
パターンBのサイコロは実は統計的に有効なのです。意外ですね
独立性の検定
この適合度検定を応用させると、独立性を検定させることができます。
独立性とは、2つの変数が統計的に無関係であり、一方の変数がわかっても他方の変数への予測ができない状態です。言い換えれば、ある変数の値がわかっても、もう一方の変数に対する情報は得られないということです。
例えば、性別と購買意欲が独立している場合、性別が男性であるからといって購買意欲の有無が予測できないということです。
独立である場合
| 購買あり | 購買なし | 合計
男性 | 25 | 25 | 50
女性 | 30 | 30 | 60
合計 | 55 | 55 | 110
(私の今の技術では表が作れないので、これでお許しを、、)
男性の中で「購買あり」、「購買なし」の人数が同じで、女性の中でも「購買あり」と「購買なし」の人数が同じです。全体としても、「購買あり」と「購買なし」の合計数が同じです。これが独立である場合のクロス集計表の例です。
独立でない場合
| 購買あり | 購買なし | 合計
男性 | 35 | 15 | 50
女性 | 20 | 40 | 60
合計 | 55 | 55 | 110
男性の中では購買ありが多く、女性の中では購買なしの方が多いといったような不均等な分布が見られます。こういった傾向がある場合、性別と購買行動は統計的に関連しており、独立ではないと考えられます。
このように、2×2の表にした場合に独立であるかどうかを調べるためにも$${\chi ^2}$$分布を用います。
適合度検定との関係性
先程の適合度検定では、乖離があることを統計的に証明したいので、「乖離がない」と逆張りして帰無仮説を立てました。ところで、乖離とは実際の値と何の値が離れているのでしょうか。適合度検定の場合は期待値でしたね。
2×2の表の場合も期待値で考えます。独立である場合の表をもう一度見てください。
| 購買あり | 購買なし | 合計
男性 | ?? | ?? | 50
女性 | ?? | ?? | 60
合計 | 55 | 55 | 110
独立である場合、「??」に入る数値はなんとなく予想できるでしょうか。購買ありなしの人数は1:1に分かれてるので、男女の人数も1:1に分かれるのでは、と。
このように予想できますよね。これをここでは期待値のようなものと考えていくと、「期待値から乖離している」=「独立性がない」と考えることができます。なので、$${\chi ^2}$$分布を用います。「期待値から乖離している」=「関連がある」と考えることもできます。
以下は実際に上の表を使って検定をするわけではないですが、手順をお伝えします。
・帰無仮説は独立性があるとしましょう。
乖離している(独立ではない)ことを確かめたいので、逆張りして帰無仮説を乖離していない(独立である)とするためです。
・棄却域はカイ二乗分布で調べましょう。
・検定統計量は $${\dfrac{全体の総数×行列式^2}{4つの合計を掛けたもの}}$$ です。行列式の2乗が忘れがちなので覚えましょう。行列式についてはこちら!
上の表で、独立でない場合を例に当てはめてみます
$${\dfrac{110×(35・40-15・20)^2}{50・60・55・55}}$$で求まります。エクセルなどで計算するのがよいでしょう。
これで、棄却されれば乖離がある(独立でない、関連がある)、棄却されなかったら乖離してない(独立である、関連がない)となります!!
最後までお読みいただきありがとうございます!!!いいねを押してもらえるととてもうれしいです!!