one point統計学1000字~スタージェスの公式の正体
データは現実を解釈するために使う大切な数字の集まりですが、そのままでは単なる数字の山。そこに潜むパターンを浮き上がらせるために整理し見える化したものがヒストグラムです。
下の数字はある競技の全国大会に出場した女子選手35人の身長データです。
167 165 153 152 155 159 166 154 157 160 167 159 166 158 170 164 155 148 161 164 153 172 163 151 162 166 158 152 156 155 155 157 158 160 158
手っ取り早く傾向を見たいので、幹として百と十の位を縦に並べ、葉として一人一人の身長の一の位をその対応する場所に並べてみました。
(幹ー葉の図)
幹 葉
14 8
15 1 2 2 3 3 4 5 5 5 5 6 7 8 8 8 8 9 9
16 0 0 1 2 3 4 4 5 6 6 6 7 7
17 0 2
しかしこれでは区切りが粗くデータの傾向がよく分からないので、データを適切ないくつかの区間(階級)に分けて、各区間に入る人数(度数)を柱状グラフ(ヒストグラム)で表してみましょう。ここで気になるのが「階級数はいくつが適当?」ということです。
階級数をいくつにするかは、ヒストグラムの背後に滑らかな曲線など(分布の法則)が想像できるような設定が理想です。試行錯誤で適切な階級数を探りつつヒストグラムを描くのはExcel等の仕事!とは言え、目安の計算法は知っていると便利。それがスタージェスの公式です❣
この公式を使って先ほどのデータに対して適当な階級数を計算してみます。
さて、この不思議な公式の正体は、対数計算、2項定理、∑計算を高校の教科書でチラ見しつつ式を追ってみると分かります!
実は、スタージェスの公式は2項定理を書き換えたもの(*)です。(*)式を図示すると、データ総数n、階級数kのヒストグラムっぽい柱状グラフが現れます👀
具体的な数値を代入して見てみましょう。
このグラフの背後には明確な分布法則(二項分布)があります。
つまり、データ数nに対して、背後に分布法則が想像できるようにヒストグラムを作るとき、(*)タイプのヒストグラムを参考にして階級数kを求める式がスタージェスの公式。正体を知った上で・・・
【結論】スタージェスの公式は、使わなければいけないという類のものではなく、単なる目安❣
それではまた👋