統計学の社会的意義を知る 〜1〜
多種多様で膨大なデータ(情報)から本質的なことを得るには、統計学の知識が必要不可欠です。近年ではビッグデータの登場により、統計学の存在感が強まりつつあります。
統計学はある程度の「ばらつき」を含む有限のデータの性質を調べたり、大元(母集団)から一部(標本)を抜き出すことで、データの全体的な特性を理解するためのプロセスを体系化したものです。
統計学は十分に勉強してきていないのですが、会社で話題になることも多くなりました。今回は「統計学」について、自身の勉強も兼ねて見ていくことにします。
統計学の体系論
統計学には大きく分けて2種類の手法があります。まずは、あるデータを集めて表やグラフを作り、平均や傾向からデータの特徴を把握する「記述統計学」です。もうひとつは、母集団から標本を抜き出してその特性から母集団の特性を推測し、その優位性を検定する「推測統計学」です。
記述統計学は実在するデータを用いて特性などを調べる手法です。そもそも、データが存在しないと分析ができません。その弱点を克服したのが、推測統計という考え方です。
推測統計学は大元(母集団)から一部(標本)を抜き出して、そこから得られる傾向を利用して、母集団の特性を推測する手法です。まだ入手していないデータを推測するための手法と言えます。
記述統計学について
記述統計学は実在するデータを扱います。データの平均値や標準偏差などを計算して分布を得ることで、データの特性を理解しやすい形に変換することを目指しています。昔話ですが「偏差値」は記述統計の一種です。
母集団の特徴を知る上では「統計的指標」が一般的に使われます。最も多く使われるのは平均値で、ばらつきのある集団を代表する値です。ただし、データの分布次第では平均値があまり意味を成さない場合もあります。こういう場合に活躍するのが、データの分布を示す「ヒストグラム」です。
記述統計学は複数のカテゴリーに対するデータを集めてから、統計的指標やヒストグラムなどを利用してデータを分析することで、効率的に問題解決を図ります。
標準偏差と正規分布
ところで、平均値の意味は何となく想像がつきそうですが、標準偏差の意味は想像がつかない人も多いのではないでしょうか。
標準偏差とは、言わば「平均からのズレを表す数値」のことです。標準偏差を求めることで、平均値に対する数値のばらつきを知ることができます。
上記は分布を表す際によく使われる「正規分布」と呼ばれるものです。正規分布では平均値を中心にして、存在する標準偏差の間にどれだけのデータが存在するのか理論上で決められています。
先ほど触れた偏差値についても、この正規分布に従い算出されます。正規分布に関する特徴は次の通りです。
以上のように、標準偏差と正規分布は密接な関係があります。実際に正規分布を描くには「標準化」という作業が必要ですが、その辺は興味のある方は別途で調べてみてください。
おわりに
今回は統計学に関する概要説明と記述統計学に関する話をしました。
記述統計学と推測統計学の2種類がある中で、近年は推測統計が発展しています。ビッグデータの登場に起因するもので、推測統計は高い精度を保持しながら、様々なソリューションを与えていくことでしょう。
次回は推測統計学の手法を深掘りしてみます。
-------------------------
最後まで読んでいただき、ありがとうございます。実際は非定期ですが、毎日更新する気持ちで取り組んでいます。あなたの人生の新たな1ページに寄り添えたら幸いです。何卒よろしくお願いいたします。
-------------------------
⭐︎⭐︎⭐︎ プロフィール ⭐︎⭐︎⭐︎
⭐︎⭐︎⭐︎ ロードマップ ⭐︎⭐︎⭐︎
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?