(6):信頼区間の問題って、…
慣れない用語との戦いだよね
区間推定の難しさって、なんといっても用語の難しさだと思いますね。標準誤差、自由度と臨界値(限界値とも)、これらを組み合わせて信頼区間ですね。
なあんだ、たいしてたくさんあるわけじゃないね。と侮るなかれ。標準誤差の理解のために、難しい用語がまた出てくるんですね。平均値、標準偏差、標本分布、標本分布の平均値(期待値)、標本分布の標準偏差(これが標準誤差ですね)、といった具合に。難しい用語で殴り倒したい相手がいる方にはもってこいかもしれません?
理解のためには教科書を読もう
区間推定の考え方について、今のところ一番わかりやすいのは、清水先生の「心理学統計法」で、そこで参考にされているのは南風原先生の「心理統計学の基礎」ですね。私が下手に解説すると混乱しかねないのでやめておきますけど。(逃げた!)
とりあえず式を理解する
というわけで、とりあえず信頼区間の算出式を理解しましょう。こんな感じです。
平均値 ± 臨界値(自由度,信頼係数) × 標準誤差(の推定値)
え、こんな単純な式だったっけ? と思った方は、記号だらけの式の、どの部分がどこに当てはまるのかをちゃんと追いかけてみることをお勧めします。統計検定の2級とか、信頼区間の算出式があれもこれも出てきますが、上述の形で理解することが大事だと思いますね。その方が結局、混乱が少ないように思います。
追いかけよう!
では、「心理学統計法」で説明されている区間推定の式(t分布を用いた母平均の推定)を、上述の日本語の式に対応付けて理解してみましょう。
$$
\bar x \pm t_{0.975}(n-1)\sqrt{\frac{u^2}{n}}
$$
式の冒頭に書いてある、$${\bar x}$$が「平均値」です。説明不要ですよね。$${\bar x}$$はデータから計算された平均値です。これが母集団の平均値(母平均$${\mu}$$)とぴたりと一致するわけではありませんが、それに近い値であることは確かです。なので、「母平均は、$${\bar x}$$から、これくらいは離れているかもしれないよ」という範囲を、信頼区間の形で示すのですね。
次の$${t_{0.975}(n-1)}$$が「臨界値」ですね。ややこしい形をしていますが、「自由度${$n-1}$$のt分布の97.5%点」という単一の値を示しています。分布表から探してもいいし、Excelの関数を使って求めてもいい。
最後の$${\sqrt{u^2/n}}$$が「標準誤差(の推定値)」ですね。「推定値」って注釈が付くのは、本来なら母集団の分散を計算に使いたいのですが、それはわからないので、データから計算した不偏分散($${u^2}$$)を、その推定値として使っている。だから「推定値」です。それをデータサイズで割って($${u^2/n}$$、これが標本分布の分散)、平方根を取ります($${\sqrt{u^2/n}}$$、これが標本分布の標準偏差)。
その他の例
「社会統計学入門 '12」には、比率の信頼区間の算出式として、次のような言葉の式が示されています。
標本平均(比率) ± z値 × 標準誤差
はい、同じ形をしていますね。ここでは臨界値が「z値」と表記されていますが、標準正規分布の97.5%点で、有名な「1.96」です。標準誤差の算出式は直接示されていませんが、(標本平均の分布の)分散は「母分散$${\sigma^2}$$/標本サイズ$${N}$$」であり、その平方根が標準誤差(標本平均の分布の標準偏差)であること、そして、不明である母分散の代わりに、データから計算した標本分散$${p\times(1-p)}$$で代用することが説明されています。結局、こうなります。
$$
p \pm z_{0.975}\sqrt{\frac{p(1-p)}{n}}
$$
ここに示した(a)の式と(b)の式が「同じ構造をしている」ことを、ぜひ理解しましょう。
実際の出題では
23年度1学期の問6では、分散とデータサイズが前問に示されていて、それを使って標準誤差を計算する問題でした。正しく計算できれば正解できる問題でした。
22年度1学期の問2では、標準誤差が示されていて、前問で示されているデータサイズを用いて分布表から臨界値を読み取り、信頼区間を計算する問題でした。自由度と信頼係数から臨界値が正しく読み取れれば正解できる問題でした。
というように、信頼区間の計算の特定の部分だけを問題として出題しているように見えます。どの部分が問題になるか予想することはできないので、結局、まるっと理解するのが一番いいのです。はい、がんばりましょう。