なぜ分散(データのばらつき)が大事なのか?
分散とはデータ(数値)のばらつきのことです.データが変われば分散も変わります.分散を見ることで,どのデータがどれくらいばらついているかを知ることができます.「ばらつきを調べても意味ないのでは?」と思っている人もいるかもしれないので,少しその話をしようと思います.
ある工場では機械に使われるネジを製作しています.通常そのネジは1つ1.00グラムで作成されますが,0.99グラムのものもあれば,1.01グラムのものもあります.製作したネジを一定数集めて,そのネジの分散を見ることでネジを作っている機械やその部品が正常かどうかを判別することができます.もし分散(ばらつき)が大きければ機械の点検をするかもしれません.このような結果,平均を求めても解決することはできません.
次に分散の求め方ですが,特にここは自分の言いたいことの本質ではないので軽く流すと,分散は「平均からどれくらい数値が離れているか」を計算することで求めることができます.ポイントは「平均から」ということです.なので,データA「1,2,3」もデータB「11,12,13」も分散は同じだということです.
一般的に,数値が大きくなると分散も大きくなる傾向にあります.アリの体長と人間の身長の分散を求めたとき,人間の方が大きくなることが予想されます.ではその2つを比較できないかというとそんなことはありません.この場合は(分散の平方根)÷平均を求めることで比較可能になります.これを変動係数とよびます.
たまに変動係数を求めるときにどっちが割る数か割られる数か分からなくなりますが,変動係数の意味を考えることですぐにわかるかと思います.
今回はここまでです.意外にあっさり終わりました.トップの画像は,ばらつきを表現したく「格差」で検索してヒットした画像でした.格差っていうものは何か難しいでよね.無い方が良いという人もいれば,無くなりはしないという人もいたりと.みなさんはどうお考えでしょうか.
最後までお読みいただきありがとうございました.