統計学の社会的意義を知る 〜2〜
多種多様で膨大なデータ(情報)から本質的なことを得るには、統計学の知識が必要不可欠です。近年ではビッグデータの登場により、統計学の存在感が強まりつつあります。
そんな統計学の話の続編です。前に書いた通り、統計学は「記述統計学」と「推測統計学」の2種類のアプローチがあります。前回は記述統計学の話をしました。
今回は推測統計学について話を進めます。推測統計学はごく一部のデータから、全体(母集団)の特性を理解します。
推測統計学における推定と検定
推測統計学には「推定」と「検定」があります。
推定はある母集団から標本を抽出した時に、母集団を特徴づける統計量を推測することです。検定は母集団から抽出された標本の母数(平均値などのパラメータ)に関する仮説の妥当性を判定することです。
日本人全員を母集団としてランダムに100人を抽出した標本を対象に、双方の意味を考えます。
推定は100人の身長から日本人全員の平均身長を推測します。検定は日本人の平均身長が165cmと言われる中で、100人の平均が167cmである際に、100人の平均値の妥当性を判定することです。
点推定と区間推定
推定には「点推定」と「区間推定」という2つの方法があります。
点推定は平均値などを1つの値で推定することです。言うなれば、母集団から抽出された標本から母集団を特徴づけるパラメータ(母数)を推測することです。改めてですが、日本人(成人男性)の身長で説明します。
一方で、区間推定は平均値などをある区間を設けて推定することです。先ほどの点推定の話と比較すると、このような違いがあります。
区間推定は勝手に範囲を指定するのではなく、確率分布を用いて求めます。流れは下記の通りです。
信頼度は95%や99%という値が多く使われます。例えば、信頼度95%で信頼区間というのは「95%の確率で平均値が存在する範囲」という意味です。5%の確率で外れている可能性もあるので、注意が必要です。
検定の意味と流れについて
検定は正式には「統計的仮設検定」と言います。確率に基づいて結論を導く方法です。
検定は「最初に仮説を立て、実際に起きた結果を確率的に検証し、結論を導く」という手順で行います。結論を導くには背理法を用います。背理法とは「最初に仮説を設定し、仮説が正しいとした条件で考えて矛盾が起きた場合に、仮説が間違いだと判断する」ことです。
簡単な例題から検定の流れを見てみます。
検定を行うにあたり仮説を立てます。ここでは「渡された2枚のコインは普通のコインである」とします。この仮説に矛盾が生じた場合、普通のコインではないと結論付けられます。
次に仮説を検定するための確率を求めます。渡されたコインが普通のコインである場合、2枚とも裏が2回起こる確率は6.25%です。これは、普通のコインを渡されていたのであれば、6.25%でしか起こらない事象が起きたことを意味します。
結論を確定させるために、まずは「滅多に起こらないと判断する確率の基準」を設定します。例えば、この基準を10%と設定すると10%以下の確率で起こる事象については滅多にないことであるため、仮説は間違いであると判断されます。
逆に、10%以上の確率で起こる事象については滅多にないことではない(許容できる範囲)となるため、仮説が間違いとは言えないと判断されます。
今回の問題では、仮説を「渡されたコインは普通のコインである」として、観測した事象が起こる確率は6.25%でした。6.25%は判断基準(10%)より小さいため、渡されたコインは普通のコインであるとは考えられないという結論を導くことができます。
おわりに
今回は推測統計学について話をしました。
先ほどの検定については、導かれた結論は「絶対に正しい」と考えることはできないことを留意しておく必要があります。
滅多にないことであると結論付けたとしても、6.25%という確率は仮説が正しくても、16回に1回は起こってもおかしくない事象であるとも考えられます。
検定は確率をもとに判断を行うので、結論が絶対に正しいと考えることはできないのです。この点を意識しながら使いこなすのが一番です。
-------------------------
最後まで読んでいただき、ありがとうございます。実際は非定期ですが、毎日更新する気持ちで取り組んでいます。あなたの人生の新たな1ページに寄り添えたら幸いです。何卒よろしくお願いいたします。
-------------------------
⭐︎⭐︎⭐︎ プロフィール ⭐︎⭐︎⭐︎
⭐︎⭐︎⭐︎ ロードマップ ⭐︎⭐︎⭐︎