見出し画像

統計的な推測~標本平均とか標本分布とか、「標準誤差は標本分布の標準偏差」とか、ややこしいぞ!

Cover Photo by Christopher Burns on Unsplash

統計的な推測:区間推定

いよいよ区間推定の話に入ります。区間推定は、統計学の基本的な内容の中で最も重要なトピックと言っても差し支えないでしょう。まず「解説」から、区間推定について説明してある部分を引用します。長いので(数式もあるので)画像で。

「解説」p.108

これを読んで、ふむふむ、そうだよね。と納得できる方は、この先を読む必要はないです。「何のこと言ってるの?」と言う方は、この先、もしかしたら理解のヒントが得られるかも(?)しれません。

標本平均の標本分布

「解説」ではこの用語を使っていませんが、引用部分の中ほどにある数式の部分は、標本平均の標本分布の特徴(その平均値と標準偏差)について述べています。(上記の説明では「母平均mに近い」までしか書かれていませんが、さらに「分散は母分散をnで割った値に近い」と言ってよいのです。だからこそ「標本平均とmの差を$${\frac{\sigma}{\sqrt n}}$$で割って」という話ができるのです。)
「標本分布」は、推測統計の中でも「何のこと言っているのかわからない」と感じられる用語の代表格かもしれません。言葉で説明する前に、次のようなシミュレーションをしてみます。

10個の確率変数に《仮の》実現値を出させてみる

【平均50、分散100の正規分布】にしたがう確率変数を10個用意します。でも、これだけでは実際に数字を使った計算ができず、数式で説明することになってしまいます。それでは、少なくとも高校生はついてこれないでしょうから、少し工夫します。
10個の確率変数は、【平均50、分散100の正規分布】にしたがって、実現値を発生させてくれるはずです。さしあたり1000個ずつ、《仮の》実現値を発生させてもらうことにします。そうすると、【平均50、分散100の正規分布】にしたがった数値が手に入りますから、この数値を使って、実際に計算して考えることができます。

では、どうやって、《仮の》実現値を発生させてもらうか、ですが、擬似乱数を使います。【平均50、分散100の正規分布】にしたがう疑似乱数を1000個分つくるのです(ここはExcelにやってもらいます)。
ここ、注意してほしいのは、n=1000のデータを集めたわけではないことです。確率変数に、次々に「実現値ちょうだい!」と要求したら、こんな感じで次々に実現値をはきだしてくれるんだろうなあ~という、妄想をしているにすぎません。それぞれの確率変数が、『実現値を要求されたら、この値にしようかなあ、それとも、こっちの値にしようかなあ』と、あれこれ迷っているようなイメージをしてください。
10個の確率変数に、同じことを要求すると、こんなふうになります。

確率変数はきっと、こんなふうに実現値を吐き出すのだろうなあ、と言う妄想

当然ですが、値がけっこうばらつきますね。
x1~x10は、【平均50、分散100の正規分布】にしたがう確率変数です。でもだからといって、50という値しか出さないわけではありません。平均値である50に近い値が実現値としては比較的出やすいだけです。そして、無限に実現値を出させ続けると、【平均50、分散100の正規分布】という究極の状態に近づいていくよ、ということです。(ただし今回は、本当に正規分布になっているかどうかの検証はしていません。)
上の表では、1000個分の実現値を《仮に》出してもらいました。究極の状態である【平均50、分散100の正規分布】にどれくらい近づいているのでしょう。計算してみると、こうなります。けっこう近い値になっていますね。
というわけで、確率変数たちが、ちゃんと【平均50、分散100の正規分布】とうい確率分布にそって、実現値を返してくれそうだとわかりました。

上の3行分が、1000個の《仮の》実現値の平均・分散・標準偏差。
それなりに「究極の状態(平均50、分散100)」に近くなっている。

確率変数たちに「君たちの平均だけ教えて」と言ってみる

ところで私たちは、実験や調査をしてデータを集めますが、これは、確率変数の実現値を集めていることと言い換えられます。たとえば、受験生を10人集めて、「この前の模試の偏差値いくつだった?」と聞くと、次のような答えが返ってくるかもしれません。
1人目「42.45747」、2人目「30.97228」、3人目「41.30091」、4人目「55.69723」、、、10人目「49.69052」
もし別の10人だったら、こうなるかもしれません。
1人目「29.71227」、2人目「45.64371」、3人目「35.60786」、4人目「37.08702」、、、10人目「29.40331」
偏差値にしてはずいぶん数字が細かいし、29とか低すぎでしょ?というツッコミはおいといて。さっきの確率変数が出した値は、こんな場面で得られたかもしれない数だというイメージを持ってください。つまりこれは、n=10の調査を1000回やってみたらこうなるかも!という妄想なのです。

では、n=10の調査をやったことにしましょう。確率変数たちが実現値を出してきますが、そこで、「ちょっと待て。全部の値はいらない。君たちの平均だけ出してくれ」と要求してみましょう。これが「確率変数の平均」のイメージです。
すると、どういう値が返ってくるかというと、《仮の》実現値の1行目(42.45747、30.97228、41.30091、55.69723、、、49.69052)の平均、つまり43.10302が、《仮に》返ってくるはずですね。もしかしたら、2行目(29.71227、45.64371、35.60786、37.08702、、、29.40331)の平均、つまり44.01858かもしれません。
(当然ですが、普通の調査では「確率変数の平均だけ値が返ってくる」などということはあり得ません。実現値を用いて平均値を計算するのは人間です。)

問題です

同じようにして1000回分、《仮の》実現値に基づく《仮の》平均値を出してもらったとします。これらは、確率変数x1~x10の平均ですので、「x1~x10の平均値」という、新たな確率変数です。名前を$${\bar x}$$(エックスバー)とつけます。
そこで問題です。この確率変数$${\bar x}$$は、究極的には、どんな平均値と分散をもつと思いますか?

沈思黙考

チッチッチッチッチッチッ・・・

答えです

あとで比較するために、x1とx2の2つだけに、「君たちの平均だけ返して」と言った場合、x1からx3の3つだけに、「君たちの平均だけ返して」と言った場合、というように、声をかける確率変数の数を変えて、すべてについて計算してみました。さきほどの問題の答えは、表の一番右側です。

確率変数の平均はどのような分布を描くか

一番右側「x1-x10」を見てください。平均は50.03801です。これは別にびっくりしませんね。もともとの確率変数の究極状態が、平均50でしたから、平均したってやっぱり究極状態は平均50です。
分散はどうでしょう。分散は10.37005です。おや。それぞれの確率変数の究極状態は分散100だったはずなのに、平均したら、その10分の1くらいになっているではありませんか。
実はこれが、確率変数の平均の性質なのです。上の表の分散のところを順番に見てください。

確率変数の数が2つのとき(x1,x2)ー>分散約50(100÷2)
確率変数の数が3つのとき(x1~x3)ー>分散約33(100÷3)
確率変数の数が4つのとき(x1~x4)ー>分散約25(100÷4)
確率変数の数が5つのとき(x1~x5)ー>分散約20(100÷5)

上の表でシミュレーションした結果は、これに近い値になっていると思います。すべての確率変数を平均すれば、確率変数の数は10ですから、分散は100÷10=10になるのです。
以上のことは、数式を使ってきちんと証明することができます。シミュレーションでは、疑似乱数を使っているために、理論通りの値にはなりません。しかし、確率変数の数が増えるほど、その平均値$${\bar x}$$という確率変数の分散が小さくなっていくことは分かると思います。そしてこのことは、n数を大きくして(つまり多くの確率変数の実現値を集めて)平均値を計算すれば、その値は、母集団の平均値に近づく確率が高くなることを意味します。

標本分布の標準偏差のことを、特に「標準誤差」といいます

最後に、「標準誤差」についてふれておきます。
確率変数10個の平均値$${\bar x}$$を考えると、その平均値はもとの平均値と一致し、その分散はもとの分散の10分の1(10個分だから10分の1です)になりました。標準偏差は、分散の平方根ですね。数式で書くと次のようになります。確率変数がn個のとき、

$$
\bar x の平均値=元の平均値(母集団平均 \mu)\\
\bar x の分散 = 元の分散(母分散\sigma ^2)の\frac 1n=\frac{\sigma^2}{n}\\
\bar xの標準偏差 = \bar x の分散の平方根 = \sqrt{\frac{\sigma^2}{n}}=\frac{\sigma}{\sqrt{n}}=「標準誤差」
$$

これで、最初に「標本平均とmの差を$${\frac{\sigma}{\sqrt n}}$$で割って」の部分に、$${\frac{\sigma}{\sqrt n}}$$が出てきた理由がわかりましたね。標本平均の実現値をZ標準化するために、標本分布の平均値と標準偏差(=標準誤差)が必要だったのです。

それでは、要約区間推定の計算に移りましょう。と思いましたが、長くなりすぎたので次回にします。