見出し画像

統計的な推測~区間推定って、何を推定するんですか?

Cover Photo by Christopher Burns on Unsplash

統計的な推測:区間推定

前回から区間推定の話に入りましたが、標本分布とか標準誤差とかの話でお腹いっぱいになってしまいました。今回は、具体的な数値を使いながら、実際の区間推定について書いていきます。「解説」の、区間推定についての説明部分を再度引用します。

「解説」より:再掲

何を推定しようとしているか

では、上の文章を読んで、何を推定しようとしているかを考えてみましょう。次の文があります。(黄色いマーカーを引いた場所です)

「任意の標本における平均値から、母集団における平均値を推定する」

「任意の標本における平均値」とは、実際に標本から得られるであろう平均値、すなわち標本平均のことです。「母集団における平均値」は、一般に「母平均」と呼ばれます。つまり、「実際に標本調査したら、その標本から平均値が計算できるよね。その値を使って、母平均がいくつくらいか推定してみましょう!」と言っているのです。
何を推定しようとしているか、それは「母平均」です。

標本平均は母平均に近い

母集団の平均と標準偏差が仮に次のように定められています。

母平均$${m}$$、母標準偏差$${\sigma}$$の母集団から大きさ$${n}$$の標本を無作為に抽出し

細かいことですが、この母平均$${m}$$という書き方はちょっと気になりますね。通常の統計学の教科書では、母平均は$${\mu}$$(ミュー)と書きます。高校生だからギリシア文字使わなかったのでしょうか。であるなら、次の母標準偏差(母集団の標準偏差のこと)を$${\sigma}$$とギリシア文字で書いているのはなぜでしょう。こちらの表記は通常の統計学の教科書にならっています。
大きさ$${n}$$の標本を無作為に抽出しました。この標本の平均値を使って、母平均を推定する、という話のようです。

標本平均**(式省略:引用者)の値は母平均$${m}$$に近い。

標本平均を計算すると、その値は母平均に近い、といってます。ただし、標本平均は、確率変数から計算される値ですから、標本平均自体も確率変数です。ということは、標本抽出のたびに確率的に変化しうる値であって、たまたま得られた標本平均(の実現値)をもって、「ずばり、これが母平均だ」とか言えるわけではありません。あくまでも、標本平均の「期待値」が、母平均に一致するという話です。
とはいえ、$${n}$$が十分に大きいなら標本平均は母平均に「近い」のですから、「母平均はきっとこの値に近いのだろう」という予測は成り立ちます。

母平均はすでにわかっている

ところで、続く部分に次の表現があります。

標本平均と$${m}$$の差を$${\sigma/\sqrt n}$$で割って・・・

おや? ちょっと待ってください。標本平均は計算できます。それと$${m}$$との差を求めるのですね。「標本平均-母平均」。あれ? 母平均はもうわかっているのでしょうか。わかってないと計算できませんよね。

そして引き算した数を、$${\sigma / \sqrt n}$$で割るのですね。ちょっとまってください。$${\sigma}$$は母標準偏差ですね。これもわかっているのですか? $${n}$$はサンプルサイズですから、当然わかっていますが。

何をしているのか、よくわからない

ということで、この文章は結局、何をしているのかよくわかりません。
最初に書いてあったように、「母平均の区間推定」の話だったので、「未知の数である母平均は、この区間にあるだろう」と推定する話のはずでした。しかし、途中に登場する式には母平均が含まれていますから、母平均がわからないと計算できません。数式で書かれると何も矛盾していないように読めてしまいますが、これでは実際の数を使って計算してみることができないように思えますが、どうなのでしょう。

ヨビノリさんに聞いてみよう

ヨビノリさんの動画「推定・検定入門③」が、ちょうどこの「母平均の推定」を扱っています。ここでは母分散がわかっている場合(こういうことは本来あり得ないのですが、話を分かりやすくするための設定です)、次の「推定・検定入門④」で、母分散がわからない場合の計算方法について説明しています。清水(2021)もたいへんわかりやすい教材ですが、こちらの動画もたいへんわかりやすくまとまっています。

この動画での説明を、ざっくりと再現してみます。(詳しくは動画を)

仮のデータで区間推定してみる

次のような、n=16のデータがあるとします。16人分のテストの点数くらいに理解してください。統計量を示すと、平均値=53、標準偏差=9.4です。

仮想データ n=16

前回書いたように、n=16のデータから標本平均を算出したとき、この標本平均は、平均=$${\mu}$$(母平均)、分散=$${\sigma^2 / n}$$、標準偏差は$${\sigma/\sqrt n}$$の正規分布にしたがいます。これを「標本平均の標本分布」というのでした。
母平均の区間を推定するとは、この標本分布の中央部分(全体の95%にあたる部分)の両端の値を使って、「95%の確率で、母平均は**から**の間にあるだろう」と推定することです。具体的には、分布の中心、すなわち平均値から、「標準偏差の1.96倍」だけ離れた値が、求める「95%に当たる区間の両端」になります。

そのためには、分布の中心(=母平均$${\mu}$$)と、標準偏差(=母標準偏差÷サイプルサイズの平方根、$${\sigma/\sqrt n}$$)がわかっていなければなりません。しかし、母平均はわかっていません。そもそも母平均は推定する対象です。母平均の値がわからないから、それを推定したいのです。それから、母標準偏差もわかっていません。こちらは、標本から計算した標本標準偏差(正確には、不偏分散の平方根)で代用する方法がありますが(t検定といいます)、高校数学ではここまで扱っていません。その代わりに、母標準偏差がわかっている、という仮定を使っているわけです。上に引用したヨビノリさんの動画でも、この仮定を使っています。そして、わからない母平均の代わりに、標本平均を使っています。
では、仮想データを抽出した母集団の、母標準偏差が10であると仮定して、母平均の区間推定の計算をしてみましょう。

母標準偏差=10とすると、標本平均の標本分布の標準偏差(=標準誤差)は、$${\sigma/\sqrt n=10/\sqrt{16}=10/4=2.5}$$となります。
標本分布の平均値が、仮に53(=標本平均)であると仮定すると、全体の95%にあたる部分の両端は、ここから標準誤差の1.96倍離れた点です。したがって、その左端(値の小さい方)は、
$${53-1.96\times 2.5 =48.1}$$
で、その右端(値の大きい方)は、
$${53+1.96\times 2.5 =57.9}$$
になります。よって、母平均は48.1~57.9の間にあるだろう、と推測できます。

最初に引用した「解説」の文章では、標本平均と母平均の差を求める手順が含まれていましたが、その手順は、区間推定には必要ありません。標本平均と母平均の差を求める手順が、どういった必然性から書かれているのか、結局よくわかりませんでした。
どなたか、ご教授いただければと思います。