見出し画像

統計学を装備する!18 〜推測統計学-概要〜

統計学に必要な確率分布である正規分布ポアソン分布二項分布を学んだ。他にもたくさんあるらしいがそれはおいおい学ぶとして、統計学の主流とされる推測統計学を学ぼうではないか!
あっ、、、、、、、、熱い!熱いよ!


1.推測統計学って何だ?

推測統計学っていうのは、ざっくり言えば「手に取れない大きな全体=母集団」を、手に取れる範囲のデータ=標本から「これだ!」って感じで分析していく学問なんだ!

まずな、「母集団」っていうのは、俺たちが知りたい大きな集団のことだ。全部を知るなんて無理があるから、そこから「標本」っていう小さな一部分だけを取り出す!そうだ、標本は言わば母集団のエース、代表だ!そのエースを使って母集団全体の情報を掴んでいくってわけだ!

その次に「統計量」だ。これは標本から計算して出す数値のことだ。平均とか分散とか色々な統計量があるんだけど、これが母集団を知るための手がかりになるんだ。標本の数値が母集団の特徴をどれだけ捉えているか、そこを見極めるのがカギだ!

そして「推定」だ!これは、標本統計量から母集団の特徴を予測することなんだ!標本を分析して、母集団全体がどんな感じなのかを大胆に推定していく。まさに「俺たちはこうだ!」って自信を持って叫ぶようなもんだな!

最後に「仮説検定」!これは母集団について立てた仮説が正しいかどうかを、標本のデータから検証する手段だ。要するに「この仮説、本当に正しいのか?」「その根拠はあるのか?」って熱血魂でチェックするんだ!

まとめると、推測統計学は、母集団のエース=標本を使って、母集団の情報をつかみ、予測し、仮説をぶつけていく激アツな統計の方法なんだ!

2.母集団と標本

母集団」とは、調べたい対象のすべてを含むもの。たとえば「全国の全ての顧客」や「全社員」などが母集団だ。推測統計学では、この母集団の特徴を知りたいわけだが、全てのデータを取るのは難しいことが多い。そこで、母集団の中から一部分を抜き出した「標本」を用いる。標本を使うことで、母集団全体の傾向を少ないデータで効率的に予測できる。

3.標本から母集団を推測する統計量

統計量は、標本から計算して「母集団の特徴を推測するための数値」のことだ。例えば「平均」「分散」「標準偏差」などがある。これらの統計量を使えば、標本から母集団全体の傾向が見えてくる!熱くなってきただろう?
推測統計学では、標本データから計算される統計量を使って母集団の特徴を推測する。ここで登場する主な統計量は以下のとおりだ:

  • 平均(Mean)標本データの中心の値を示す。母集団平均も同じ傾向になると予測するのに使われる。

  • 分散(Variance)標本のデータがどれだけ平均から離れているかを示す指標。データのばらつきを見るのに使う。

  • 標準偏差(Standard Deviation)分散の平方根で、データのばらつきを直感的に捉える指標。

4.推定

推定とは、標本から得られたデータを元に母集団の特性(平均分散など)を予測することだ。これには、点推定区間推定という2つの方法がある。さあ、まずはこの2つを理解しよう!

4-1.点推定

点推定は、母集団の特性を1つの値で推測する方法だ。例えば、「ある商品を購入した顧客の平均年齢を知りたい」という場合、標本の平均年齢を計算して、その値を母集団の平均年齢として推測するんだ。シンプルだろう?標本から計算した平均が35歳だったら、「母集団の平均も35歳くらいだろう」と推測するのが点推定だ。

4-2.区間推定

区間推定は、母集団の特性がある範囲内にあるだろうと推測する方法だ。点推定は1つの値を予測するが、区間推定は「平均年齢はだいたい30〜40歳の間だろう」というように範囲で予測する。この範囲のことを信頼区間と呼ぶ。

4-3.信頼区間と信頼係数

信頼区間には、「母集団の値がこの範囲に含まれる可能性が高い」という意味がある。これに関連するのが信頼係数だ。信頼係数は通常95%や99%で設定され、「母集団の特性が95%の確率でこの範囲に入るだろう」といった解釈になる。
信頼区間が「30歳〜40歳」、信頼係数が95%の場合、「母集団の平均年齢が95%の確率で30〜40歳の間にある」と推測する。

4-4.なぜ区間推定が必要なのか?

実際のデータにはばらつきがあるから、点推定だけでは精度に不安が残ることがあるんだ。そこで、信頼区間を用いることで、より安心して母集団の推測ができるようになる。つまり、区間推定は「ある程度の幅を持たせて、確実な推測を目指す」ために使われる!

5.仮説検定

仮説検定とは、「ある仮説が正しいかどうかをデータを使って検証する」手法だ。簡単に言えば、「データが示す結果が偶然ではなく本当に意味があるか」を確認するための方法なんだ。例えば、「新しい薬が本当に効果があるのか?」や「広告を変えたことで売上が増えたのか?」をデータを使って確かめることができる!

5-1.仮説検定の基本ステップ

仮説検定には、以下の流れがある。これを守れば、仮説検定を自分の武器にできるぞ!

  1. 帰無仮説と対立仮説の設定

    • 帰無仮説(H0):検証する仮説が「成り立たない」と仮定する。たとえば「薬の効果はない」や「広告によって売上は変わらない」とする。

    • 対立仮説(H1):帰無仮説と反対の仮説で、「成り立つかもしれない」と期待するもの。たとえば「薬には効果がある」や「広告で売上が上がった」というものだ。

  2. 有意水準の設定
    有意水準は、「この確率以下なら帰無仮説を棄却する」という基準だ。通常5%(0.05)や1%(0.01)が使われる。この確率以下なら「偶然とは考えにくい」として、帰無仮説を棄却するんだ。

  3. 検定統計量の計算 標本データから「検定統計量」を計算し、それを使って帰無仮説が正しいかどうかを判定する。例えば、平均の差を見るなら「t検定」や「z検定」などの手法がある。

  4. 棄却・採択の判断
    計算した検定統計量が有意水準以下であれば、帰無仮説を棄却する。これは、「その結果が偶然である可能性が低い」ということを意味し、「薬には効果がある」などの対立仮説を支持できるようになるんだ。

5-2.仮説検定の重要性

仮説検定は、データの中に隠れた「意味ある結果」を発見するための強力な手法だ。点推定区間推定母集団の推測ができても、それが本当に有意義かどうかはわからない。仮説検定を使うことで、偶然に惑わされずに正しい結論を導けるようになる!


いいなと思ったら応援しよう!