統計学入門(経済・データ・IT)
最近はFPの話題をずっと書いてきましたが、これからは色々な分野の記事を書いてみようかなと思います。
と言いながら、いろんな分野の記事を書いていると私がどんな人なのか分かってしまったりするかもしれません。
そういった分析をする時に多様に使われる統計学。
FPの話題と同時に定期的に統計の話も書いてみたいと思います。
データの考え方
統計学を勉強するにあたって最も重要なものが「データ」です。
世の中、お金がすべてだ。なんて言ったりしますが、統計学では「データ」がすべてです。これに代えられるものはありませんからデータの中身、定義についてはしっかりと理解をしていく必要があります。
生活で使う統計学
中学校とかで確率の勉強した時、身近な例については勉強した人も多いのではないでしょうか。
例えばテレビの視聴率、各テレビ局が算出していますが、あれを計算する時も統計学を使ったりします。
具体的には、計算する側が、全国の世帯から測定する世帯をランダムに抽出してその世帯のテレビ情報を収集して計算します。
この際、全国のテレビ情報を全て収集すると、データ処理に膨大な時間がかかってしまう事から、一部を抽出(テレビ視聴率の計算では1万世帯)する事で効率よく信頼性のある数字を算出する事が出来ます。
ちなみに、現代の日本社会では、1世帯当たりのテレビ保有台数は2台程度、と言われていますから、全てのテレビの視聴状況を監視してたら膨大なコストが掛かってしまいますよね。(笑)
統計学における重要項目
上記、視聴率の例から考える
生活で使う例として、テレビの視聴率の例を挙げましたが、
この視聴率を計算する、と言うプロセスにも統計学上の重要な論点が隠れています。ピックアップしてみましょう。
ランダムに抽出する
信頼性のある確率、統計結果を出すためにはデータに偏りがあってはなりません。
例えばの話ですが、相撲好きな世帯だけをピックアップしてしまったら当然のことながらNHKの視聴率は高く出ることになります。
より公正な結果を出すためには抽出する基準、要件も公表し、あくまでランダムに抽出したと言う事を示す必要があります。
データの数
信頼性のある結果を出すためにはデータの数も重要となっています。
多ければ良い。これに越したことはありませんが、研究結果や調査結果を出す際は効率よく計算する事も必要です。
「最低サンプル数」と言う考え方ですが、一般的には400数必要だ、なんて言われることがあります。
少し踏み込んだ話ですが、標準誤差5%を許容し、信頼水準95%で計算すると400弱のサンプル数が出てきます。
この計算方法についても今度まとめておきますね。
因果関係と相関関係の違い
ネット上ではよく論理が飛んでいる、なんて言われたりする時はこの部分の認識で起こっていることが多いですね。
因果関係は「Aが原因でBになった(結果)」
相関関係は「Aが発生した時、Bは〇〇になる事が多い」
となります。
身近な例は
熱いからアイスを買って食べた(因果関係)
野球部の生徒は運動神経が良い子が多い(相関関係)
厳密な定義をするとこの例も若干異なる、なんて言われることもありますが、
「因果関係=原因と結果」なのか「相関関係=傾向」なのかで原因元(説明変数と言います)が異なることがありますので、論理のすり替えにならないように注意が必要です。
まとめ
今回は統計学の基礎的な考え方についておさらいしてみました。
結構統計学は奥が深いので私も楽しみながら勉強してた分野でした。
社会に出ても統計の知識は物凄く重要な部分になりますし、これからのIT社会においては必要不可欠な分野ですから常識に入れて生きていきたいですね。
統計が分かったうえで数字を見てみるとちょっとしたマジックにも気付くことが出来ます。
賢く生きていくために是非身に着けておきましょう!
今回はここまで。
この記事が気に入ったらサポートをしてみませんか?