
統計学を装備する!3 〜度数分布表とヒストグラム〜
度数分布表とヒストグラムは、統計学における基本的なツールであり、収集したデータを有効に活用するために重要な第一歩という。
なんでや?
度数分布表
収集したデータを階級ごとに分類し、それぞれの階級にどれくらいのデータが集まっているか(度数という)を示す表。データの全体像を把握しやすくなる。
階級とはデータをいくつかの区間に分けたもの。
階級の数はスタージェスの公式(log2n+1)で導くことができる。(絶対この公式で導くわけではないが)
ヒストグラム
度数分布表を視覚的にわかりやすくできるよう棒グラフにしたもの。
で、なんで度数分布表とヒストグラムが基本なのだ?
度数分布表は、大量のデータを一目でわかりやすく整理できるから、データの全体像を把握しやすくなる。
ヒストグラムは、データの分布が視覚的にわかりやすくなる。どこにデータが集中しているか、ばらつきはどのくらいあるか、といった傾向を一発でつかむことができる。データの隠れたパターンや特徴に気づきやすくなる。
データの隠れたパターンや特徴に気づくことが統計学を利用して問題を解決する流れの第一歩になる。
度数分布表やヒストグラムで、データの分布やばらつき、集中度を確認することで、次にどんな分析をすべきかが見えてくる。例えば、正規分布に近いかどうかを見たり、異常値や外れ値があるかを探したりする際に有効。これをしっかり見ておけば、データの傾向を理解して、次の統計的手法(例えば、平均や標準偏差の計算、回帰分析など)にスムーズに進むことができる。
データの特徴っつうのは?は次回にすっか。