はじめに:母平均を推定する区間推定とは
区間推定というものをご存知でしょうか。すべてのデータを集めることが難しく、平均を算出することが不可能な場合がありますよね(日本人の平均身長など、日本人全員の身長を集めるのは不可能です)。その場合、「100人や1000人ほどのサンプルから取った平均を目安にする」と思います。区間推定では、サンプルの平均を使うと真の平均がどの程度にあるのか推定できます。
区間推定で活躍するのが標本平均です。1回目に取ったサンプルの平均と2回目に取ったサンプル平均は異なりますよね。つまり、サンプルを取るたびに サンプル平均 が変わります。この発想が今回の大事な点です。ランダムな標本平均の平均を求めるという一瞬頭がこんがらがることをします。
あくまで統計学とはどのような学問かを紹介したいので、表現があいまいになる個所もありますがご了承ください。前回に「正規分布より、平均±2つ分の標準偏差が95.4%のデータを含む」という話をしましたので、先にそちらを見ていただくことをおすすめします。
理由:標本平均の分布を考える
標本平均の分布を考えます。サンプルを何度も選ぶことを考えてください。1000人を何度も選ぶと、その1000人から集まる平均は何度も変わりますよね。つまり、標本平均はランダムなのです。これは正規分布に当てはまることが知られています。また、なんと標本平均の平均は母平均になることも知られています。
正規分布より、平均±2つ分の標準偏差が95.4%のデータを含むのでした。これを標本平均の分布でも考えます。
「標本平均の平均±2つ分の標本平均の標準偏差」
の範囲内に全体の95.4%の標本平均が入っていることになります。
逆にどのランダムに選んだ標本平均を選んでも「±2つ分の標本平均の標準偏差」の範囲にはほとんど母平均が入っています。つまり
「ランダムに選んだ標本平均」±「2つ分の標本平均の標準偏差」
の中には母平均が高い確率で入っている
ことになります。これが信頼区間というものです。ランダムに選んだ標本のうち95.4%は信頼区間の中に母平均があり、残り4.6%は信頼区間が母平均に届かずということになります。
この95.4%というのは信頼度と呼ばれ、100回中95回は信頼区間の中に母平均が含まれるという意味です。
具体例:実際にどのように使われるか確認
抽象的な話が続いたので具体例で確認します。「真の平均」を知りたい場合、例えば製品の平均寿命や平均身長などがあります。
もちろん、すべての製品の寿命を測ればいいのですが、それでは売るための製品が用意できないですよね。製品の一部をサンプルとして寿命を測ってみます。平均身長も同様です。信頼度 95.4%で区間推定しましょう
信頼区間の意味と区間推定のやり方は何となく理解していただけたと思います。
まとめ:区間推定とは
ちなみに、区間推定では平均だけでなく比率なども推定できます。また、正規分布以外にも、$${\chi ^2}$$分布などで区間推定は行えます。
信頼度 95.4%とキリの悪い数値で区間推定をしましたが、本当は標準偏差 1.96 だけ離した信頼区間 95% の区間推定がよく行われます。90% や 99%でも検定は行えます。
平均と標準偏差でいろいろ推測できる統計学はすごいですよね。次回は統計的検定を紹介します。こちらからどうぞ!最後まで見ていただきありがとうございました。高評価、フォローお待ちしております。