とりあえず平均値を出していませんか? 〜中央値・最頻値を調べよう〜

はじめまして!
データアナリストのおおかみと申します。
これからよろしくお願いします( ^ ^ )


さてさて早速本題です!

皆さんは、あるサイトの売上ページを見ていました。
すると、あなたの上司から
「今月のお客様1人当たりの売上金額を調べてくれ~!」
と指示が出たとしましょう。

今月の売上を調べてみると、9名のお客様から合計90万の売上があったようです。

「ということは、合計の90万を9人で割るから、1人当たり10万か」

…そう思った方はいらっしゃいませんか?

実はこれ、正しくないことがあるんです。
どういうことか、詳しく見ていきましょう。


今月売上が立ったお客様は以下の9名で、個々の売上金額は以下の通りでした。
Aさん 1万
Bさん 1万
Cさん 1万
Dさん 1万
Eさん 2万
Fさん 2万
Gさん 3万
Hさん 5万
Iさん 74万

確かに9名で90万の売上が立っていますね。

先ほどの、総売上90万を9人で割った「1人あたりの売上は10万」というのは平均を取る考え方です。

しかしよく見てみると、9名中8名が5万以下の売上ですね。

この場合、「1人あたりの売上は10万」は正しいのでしょうか?

そこで気になってくるのが
「1人で10万買ってくれているお客様はいない」
「Jさんがいなかったら総売上も1人あたりの売上も全然違ってくる」
ということです。

平均値には、とびぬけて大きな値(もしくはとびぬけて小さな値)があった場合、それに引っ張られて平均値自体も変化してしまうという性質があります。

そのため、今回のように1人高額のお買い物をされたお客様がいる場合といない場合では、その値が大きく変わります。
(ちなみにJさんがいなかった場合、8人で16万の売上なので平均は2万ですね)

もちろん、平均を求めるのが間違っているというわけではありません。
しかし、もっと適当な数字がある気がしませんか?

そこで知っておいてほしいのが、
・中央値
・最頻値
という考え方です!

順番に解説していきますね。

まず、中央値とは『データを小さい順に並べた時に、ちょうど真ん中のデータが取る値』のことです。
言葉だけだと分かりにくいと思うので、もう一度今月の売上データ(↓)を見てみましょう!

Aさん 1万
Bさん 1万
Cさん 1万
Dさん 1万
Eさん 2万
Fさん 2万
Gさん 3万
Hさん 5万
Iさん 74万

今月は9名のお客様が買ってくださったので、データの個数も9件です。

この場合のちょうど真ん中のデータは上から数えても下から数えても5番目のデータなので、その値を見てみると、

Aさん 1万
Bさん 1万
Cさん 1万
Dさん 1万
Eさん 2万  ←真ん中 = 中央値!
Fさん 2万
Gさん 3万
Hさん 5万
Iさん 74万

よって、この場合の中央値は2万です。

中央値はとびぬけて大きな値やとびぬけて小さな値があってもその影響は受けません。
しかし、あくまで真ん中のデータの値だけを見ているにすぎないので、平均値と併せて見ることをオススメします。

では次に最頻値いきますね!

最頻値とは『データに最も頻繁に登場する値』のことです。

ちょっとだけ上にスクロールしていただいて9個のデータを見てみると、
1万の登場回数 4回
2万の登場回数 2回
3万、5万、74万の登場回数 1回ずつ
ということがわかります。

よって最頻値は1万であり、今月は1万円分買った人が最も多かったということもデータからわかりました。

ちなみに最頻値も中央値と同様に、とびぬけて大きな(小さな)値があってもその影響を受けません。


いかがでしたでしょうか?
初コラムなので読みにくかったらすみません(>_<)

私が今回お伝えしたかったのは、「平均値を取るのは間違ってる!」ということではありません。
しっかりデータを見て、調べたうえで平均値を調べるのは大切なことです。

そして中央値・最頻値も同時に調べることで、データの実態が今よりもっと見えてきて、今まで気付かなかった新たな発見があるかもしれませんよ!


この記事が気に入ったらサポートをしてみませんか?