大阪市の人口データで統計量を扱う #2
株式会社リュディアです。今回はデータのばらつきを扱ってみます。
前回の記事で使った表を再度掲載しておきます。大阪市内の24区の人口の情報です。区単位の人口の算術平均は 114,625 人でしたね。
例えば全24区の人口が 114,625 人であれば算術平均は 114,625 でばらつきもゼロです。しかし 24区で人口のばらつきがある場合にどの程度ばらついているかを知りたいと思いますよね。実際、人口が最少の此花区と最大の平野区では 191,664 / 64,870 = 2.95 とほぼ 3 倍の開きがあります。元データのばらつきが大きいか小さいか、ということを考慮しながら平均値を扱わないとデータを読み違えてしまう可能性があります。
各区の算術平均との差の情報を追記した表を以下に示します。▲が入っている区は算術平均より人口が小さいことを示します。また赤いバーの長さで人口が算術平均よりどの程度多いのか少ないのかを示すようにしました。
まず表からわかることは 24区のうち 9区の人口が区全体の算術平均より多く、他の 15 区の人口は区全体の算術平均より少ないということです。皆さんが頭に持っていたイメージと一致してますか?私は 9 区だけが多い、というのはイメージとずれてました。
これが算術平均を含む平均値の危うさだと思います。平均値と言われると何となく真ん中をイメージし、人口が少ない区も多い区も平均値を境にして同じ数になりそうと考えてしまいがちです。ここでは人口の平均値を扱っているので人口の多い区、少ない区の数が等しくなるはずがないのです。しかし人間は無意識に人口の多い区、少ない区の数が平均値を境に等しくなってるようなイメージを持ちます。
今回は区単位での人口の算術平均に対して多い少ないというばらつきを平均値に対する大小で比較してみました。しかし他の指標でばらつきを考えてみることも可能です。次回から他の指標を考えてみます。
では、ごきげんよう。