統計学を装備する!18 〜推測統計学-概要〜
統計学に必要な確率分布である正規分布・ポアソン分布・二項分布を学んだ。他にもたくさんあるらしいがそれはおいおい学ぶとして、統計学の主流とされる推測統計学を学ぼうではないか!
あっ、、、、、、、、熱い!熱いよ!
1.推測統計学って何だ?
推測統計学っていうのは、ざっくり言えば「手に取れない大きな全体=母集団」を、手に取れる範囲のデータ=標本から「これだ!」って感じで分析していく学問なんだ!
まずな、「母集団」っていうのは、俺たちが知りたい大きな集団のことだ。全部を知るなんて無理があるから、そこから「標本」っていう小さな一部分だけを取り出す!そうだ、標本は言わば母集団のエース、代表だ!そのエースを使って母集団全体の情報を掴んでいくってわけだ!
その次に「統計量」だ。これは標本から計算して出す数値のことだ。平均とか分散とか色々な統計量があるんだけど、これが母集団を知るための手がかりになるんだ。標本の数値が母集団の特徴をどれだけ捉えているか、そこを見極めるのがカギだ!
そして「推定」だ!これは、標本の統計量から母集団の特徴を予測することなんだ!標本を分析して、母集団全体がどんな感じなのかを大胆に推定していく。まさに「俺たちはこうだ!」って自信を持って叫ぶようなもんだな!
最後に「仮説検定」!これは母集団について立てた仮説が正しいかどうかを、標本のデータから検証する手段だ。要するに「この仮説、本当に正しいのか?」「その根拠はあるのか?」って熱血魂でチェックするんだ!
まとめると、推測統計学は、母集団のエース=標本を使って、母集団の情報をつかみ、予測し、仮説をぶつけていく激アツな統計の方法なんだ!
2.母集団と標本
「母集団」とは、調べたい対象のすべてを含むもの。たとえば「全国の全ての顧客」や「全社員」などが母集団だ。推測統計学では、この母集団の特徴を知りたいわけだが、全てのデータを取るのは難しいことが多い。そこで、母集団の中から一部分を抜き出した「標本」を用いる。標本を使うことで、母集団全体の傾向を少ないデータで効率的に予測できる。
3.標本から母集団を推測する統計量
統計量は、標本から計算して「母集団の特徴を推測するための数値」のことだ。例えば「平均」「分散」「標準偏差」などがある。これらの統計量を使えば、標本から母集団全体の傾向が見えてくる!熱くなってきただろう?
推測統計学では、標本データから計算される統計量を使って母集団の特徴を推測する。ここで登場する主な統計量は以下のとおりだ:
平均(Mean):標本データの中心の値を示す。母集団の平均も同じ傾向になると予測するのに使われる。
分散(Variance):標本のデータがどれだけ平均から離れているかを示す指標。データのばらつきを見るのに使う。
標準偏差(Standard Deviation):分散の平方根で、データのばらつきを直感的に捉える指標。
4.推定
推定とは、標本から得られたデータを元に母集団の特性(平均や分散など)を予測することだ。これには、点推定と区間推定という2つの方法がある。さあ、まずはこの2つを理解しよう!
4-1.点推定
点推定は、母集団の特性を1つの値で推測する方法だ。例えば、「ある商品を購入した顧客の平均年齢を知りたい」という場合、標本の平均年齢を計算して、その値を母集団の平均年齢として推測するんだ。シンプルだろう?例:標本から計算した平均が35歳だったら、「母集団の平均も35歳くらいだろう」と推測するのが点推定だ。
4-2.区間推定
区間推定は、母集団の特性がある範囲内にあるだろうと推測する方法だ。点推定は1つの値を予測するが、区間推定は「平均年齢はだいたい30〜40歳の間だろう」というように範囲で予測する。この範囲のことを信頼区間と呼ぶ。
4-3.信頼区間と信頼係数
信頼区間には、「母集団の値がこの範囲に含まれる可能性が高い」という意味がある。これに関連するのが信頼係数だ。信頼係数は通常95%や99%で設定され、「母集団の特性が95%の確率でこの範囲に入るだろう」といった解釈になる。
例:信頼区間が「30歳〜40歳」、信頼係数が95%の場合、「母集団の平均年齢が95%の確率で30〜40歳の間にある」と推測する。
4-4.なぜ区間推定が必要なのか?
実際のデータにはばらつきがあるから、点推定だけでは精度に不安が残ることがあるんだ。そこで、信頼区間を用いることで、より安心して母集団の推測ができるようになる。つまり、区間推定は「ある程度の幅を持たせて、確実な推測を目指す」ために使われる!
5.仮説検定
仮説検定とは、「ある仮説が正しいかどうかをデータを使って検証する」手法だ。簡単に言えば、「データが示す結果が偶然ではなく本当に意味があるか」を確認するための方法なんだ。例えば、「新しい薬が本当に効果があるのか?」や「広告を変えたことで売上が増えたのか?」をデータを使って確かめることができる!
5-1.仮説検定の基本ステップ
仮説検定には、以下の流れがある。これを守れば、仮説検定を自分の武器にできるぞ!
帰無仮説と対立仮説の設定
帰無仮説(H0):検証する仮説が「成り立たない」と仮定する。たとえば「薬の効果はない」や「広告によって売上は変わらない」とする。
対立仮説(H1):帰無仮説と反対の仮説で、「成り立つかもしれない」と期待するもの。たとえば「薬には効果がある」や「広告で売上が上がった」というものだ。
有意水準の設定
有意水準は、「この確率以下なら帰無仮説を棄却する」という基準だ。通常5%(0.05)や1%(0.01)が使われる。この確率以下なら「偶然とは考えにくい」として、帰無仮説を棄却するんだ。検定統計量の計算 標本データから「検定統計量」を計算し、それを使って帰無仮説が正しいかどうかを判定する。例えば、平均の差を見るなら「t検定」や「z検定」などの手法がある。
棄却・採択の判断
計算した検定統計量が有意水準以下であれば、帰無仮説を棄却する。これは、「その結果が偶然である可能性が低い」ということを意味し、「薬には効果がある」などの対立仮説を支持できるようになるんだ。
5-2.仮説検定の重要性
仮説検定は、データの中に隠れた「意味ある結果」を発見するための強力な手法だ。点推定や区間推定で母集団の推測ができても、それが本当に有意義かどうかはわからない。仮説検定を使うことで、偶然に惑わされずに正しい結論を導けるようになる!