統計学の基礎の基礎①
「統計学の基礎の基礎」を読んで、こちらの記事に辿り着いた人が大半かと思います。
このシリーズは、統計学とはいったい何なのか?
を知ってもらう事を目的に書いています。
限られたサンプル数によって全体像を把握する事が、なぜ可能になるのか。
このシリーズを読み進めてもらえれば、最終的には理解して頂けると信じています。
■全てを調べずに全体像をある程度理解する
全数を調査しなくても、ある程度のサンプル数を揃えれば全体像を理解する事ができる。
これが統計学の最も有効な活用方法になります。
ただし、ここは正確に伝えておいた方が良いかと思います。
統計学を用いれば、一定のサンプル数を揃える事で、全体を明らかにすることができるのか?
これは厳密に言えば違います。
サンプル調査と、全数調査には、若干のブレが生じる為です。
このブレを0(ゼロ)にする事はできません。
ただし、統計学を使用する事で
「ある一定のサンプル数を用いれば、真値(真の値)とのブレは±1%に抑えられる」
「これだけのサンプル数を集めれば、真値は99%以上この範囲に収まる」
という事は明らかにする事ができます。
つまり全数調査をしなくても、限りなく少ないサンプル数のデータのみで、全数調査の結果に近い値を割り出す事ができる。
これが統計学の真髄になります。
ブログ記事の方でも、少し紹介した視聴率調査を思い出してください。
(まだ読んでいない人はコチラ)
https://sts-presents.com/STS01/mind/toukeinokisonokiso/
もしも、1800万世帯分のデータを集めた結果と、900世帯分のデータしか集めなかった結果と、数値を比較した時にその数値同士のブレが非常に小さな差しかなかったら、どう思いますか?
わざわざ人件費や調査費用をかけてまで、膨大なデータを集める事は「無駄」だと言えますよね!?
統計学は、この無駄を綺麗に解消してくれるツールなわけです。
■統計学にはバイアスがかからない事が重要
少ない人件費(工数)や少ない費用で、おおよそ正確な全体像を把握する事ができるのが統計学ですが、『おおよそ正確な』結果を出すためには、サンプルの選び方が重要になってきます。
先ほどの例の視聴率調査で言えば、どの家庭がどの番組を見るかは、その家族の年齢や家族構成によって結果が異なるはずです。
もしも調査した結果が、70代以上の高齢者に偏ったり、20代の若者ばかりに偏ったりすれば、当然結果にも偏りができてしまいます。
つまり、サンプルにバイアスが掛かってしまうと、正確な結果を出し難くなるというわけです。
こうした理由から、統計学者はどうやったらサンプルを抽出する際に、バイアスが掛からないようになるのかを重要視します。
※バイアスとは偏りの事です。
●世論調査
新聞社などのニュースで紹介される「世論調査」を例に、少しバイアスについて説明しましょう。
この世論調査ですが、実は電話調査が殆どです。
あちらこちらの家庭に電話をかけて、今話題になっている時事問題や政治問題について質問します。
その回答には、いくつかある選択肢の中から答えを選んでもらうという方式です。
この時に、誰に電話をかけるのかは、無作為抽出(ランダム抽出)で決められます。
ランダムですので、全ての人に偏りが無いように平等に選出されるという事です。
ではこの時、どういう方法を取れば 「無作為・ランダム」になるでしょうか?
現在のようにスマートフォンではなく、まだ固定電話が一般的だった頃は、電話帳を使う方法が主流でした。
どの家庭にも固定電話がありましたし、ほとんどの家庭の電話番号が電話帳に掲載してあったからです。
では電話帳を使って、どうやって無作為にデータを抽出しましょうか?
電話帳は、とても分厚く重い本(帳面)です。
この電話帳をパラパラ…とめくって、無作為にストップして電話をかけてみましょうか?
ついでに、もっと無作為にするためにストップした人と、電話をかける(番号をその中から選ぶ)人を分けましょうか?
このやり方はどうでしょうか?
一見、作為がなさそうに思えます。
ですが、実際にやってみると分かりますが、この方法では電話帳の最初の方のページと、最後の方のページが選択される事は、驚くほど少ないのです。
中間あたりに掲載されている電話番号が選択されるケースが多くなります。
では、同じ電話帳を使用するとしても、次の方法ならどうでしょうか?
ここから先は
¥ 350
この記事が気に入ったらチップで応援してみませんか?