(8):信頼区間を求める問題
計算式は暗記すれば簡単…
信頼区間を求める式は、基本となる形を暗記すれば簡単ですね。一般的には、
標本統計量 ± 臨界値 × 標準誤差推定値
という形をとります。ん? 見たことない? それは、教科書に書かれている計算式を、かなり一般的な言葉に書き換えているからかもしれません。でも、こういう「骨組み」で覚えたほうが、応用が利くはずです。
①標本統計量
信頼区間を求めたい統計量ですね。平均値についてなのか、比率についてなのか、あるいは分散についてなのか。統計学の教科書によく出てくるのは平均値と比率ですね。あ、分散の信頼区間を求めるという問題は、統計検定2級のテキストに出てきます。
②臨界値
臨界値は、①その標本統計量が何分布にしたがうのか、②信頼度を何%にするのか、で決まります。比率の場合は正規分布で近似することが多く、信頼度95%なら「1.96」というおなじみの値です。
標本平均とか標本平均値の差の場合は、該当する自由度のt分布が用いられます。
t分布の95%臨界値は自由度によって変わりますから、結局、「自由度はいくつ?」を正しく数えないと、信頼区間も正しく答えられないわけですね。あと、対応ありと対応なしを間違えるとアウトだしね。
③標準誤差推定値
標準誤差推定値は、(分散÷データサイズ)の平方根、が基本的な形ですね。ただし、母分散がわからないときは不偏分散で代用したり、平均値の差を求める時にはデータサイズで重み付けしたりするので、式が複雑になっていきます。
④自由度って何?
自由度って何? という疑問に正面から答えるのは実はとてもやっかいです。いや、実は単純な話なんですけど、それがt分布を使った信頼区間にどうつながってくるの、というところがやっかい。
なので、多くの教科書では直感的な説明だけを書いていたりします。曰く、「自由に決められるデータの数」が自由度だと。
はあ? と思いませんでしたか?
何となあ~~~く、言わんとしていることは分かりたい、分かろう、分かってやろうか、分かってみたいなあ、と思うのだけど、学習しはじめた頃は、「はあ?」という感じが否めなかったのを覚えています。
まあ、これだって書き出すととてもやっかいなので、いずれ「クロス表」の自由度を考えるときに、もうちょっと丁寧に書こうと思います(たぶん)。どうせ、「はあ?」って思われるだけでしょうけど(たぶん)。
別の説明として、「使っている標本平均の数」をデータサイズから引いたもの、というのもあります。この意味がわりとよくわかるのも、クロス表を使った説明の方かもしれません。
すくなくとも、23年度1学期の問6は、自由度がちゃんと計算できれば正解できるタイプの問題なので、自由度の説明を教科書でちゃんと復習してくださいな。
以上のようなことを、「この式の場合はね・・・」といちいち説明すると、とても助かる人もいるのでしょう。ここではこれ以上書きませんので、自分でやってください。こんな風な考え方が丁寧に書かれている本として、次のものがあります。
今回は、かなり投げやりな雑談でした。