平均値、最頻値、中央値の使い分け その①
3つある代表値、
「平均値、最頻値、中央値」
について、データを用いて説明をしたいと思います。
代表値としてこの3つを学ぶということは、この3つの値は同じにならないことが往々にしてある、ということになります。
どのように使い分けるのかについては、
・データの分布・偏りに着目
・データを用いて説明したい内容と目的を考える
この2つが重要です。
代表値というと、「とりあえず平均値」というデータの見せ方が散見されますし、平均値が唯一の代表値という認識を持たれている方も少なくないくらい、平均値は親しまれているように思います。
事例:日本人の平均年収の罠
国税庁「令和4年分 民間給与実態統計調査」 によると、日本人の年収の平均値は458万円とのことです。
ここで、年収の分布についてヒストグラムを以下に作成してみました。
左縦軸は相対度数、右縦軸は累積相対度数ですので、100倍した値が%になります。
平均値のところに緑色の垂直の線を置きました。
この平均値を見たとき、「代表値」というにはちょっとしっくりこない。
そんな印象を持たれたのではないでしょうか。
例えば、累積相対度数を使って分析してみますと、緑の線とオレンジの線がクロスしている箇所の累積相対度数は0.7程度となりますので、458万円というのは、どちらかというと「上級国民」側の年収になっていることがわかります。
では、最頻値と中央値を使って分析をしてみましょう。
最頻値の場合:
300万円以上400万円未満の階級で、相対度数が最も高い値を示しています。
階級値である真ん中の値、350万円が最頻値による代表値の結果です。
中央値の場合:
データを大きい順にならべたときの中央の値ですので、累積相対度数が0.5のところの階級を参照します。
このグラフからは、300万円以上400万円未満の階級にかかっていることがわかります。
年収の平均値を知りたい場合、なんとなく、「最も多い層がもらっている年収はいくらか?」というようなことに関心があるのではないかと思います。
このような場合、やみくもに平均値を使うのは十分に注意が必要という典型的な事例です。
今回のケースで、なぜ平均値だけが、最頻値、中央値と離れてしまっているのでしょうか?
色々と要因は考えられますが、冒頭に述べました、
・データの分布・偏りに着目
が大事です。
まず、ヒストグラムの形が左右非対称であることが視覚的にわかります。
偏りが均等ではないのです。
なぜ不均等になってしまうのか。
データの内容をよく考えてみましょう。
「年収」は0円未満にはなりえません。
一方で、上限については、日本に流通しているお金をすべて一人の人が年収として受け取る、ということが理論上成り立ちます。
これがデータの偏りを生んでいる大きな要因の一つです。
「全部のお金を一人の人がもらう」は大げさですが、何億円、何十億円という年収を得ている人がいますので、年収の最大値は、代表値 - 0円の差額(約400万円)と比べたら、ほぼ上限がないのと同じですので、不均等な偏りを生む要因になっているということです。
但し、このような高額所得者の度数(あるいは相対度数)は非常に小さいので、最頻値、あるいは中央値を使うことで、このような影響を「除去」した代表値を得やすいのです。
ここで注意していただきたいのは、冒頭で述べた、
・データを用いて説明したい内容と目的を考える
が重要だということです。
このことを逆に言えば、例えば年収について分析する場合に必ず最頻値か中央値を使え、ということではありません。
例えば、平均年収と一人当たりGDPには強い相関性があります。
一人当たりGDPは豊かさの指標で、GDPを持ち出す以上、基本的には国家間の豊かさの比較が目的だったりします。
このようにマクロな視点でデータを見る場合は、平均値で評価することが多かったり、
GDPというのは年収のヒストグラムのように、分布で出すものではなく、単純にGDPを国民の人数で割り算したものですので、そもそも平均年収との相関を見る必要があります。
・そのデータを使って、何を伝えたいのか、説明したいのか
これが重要です。
「最頻値と中央値の使い分け」
これがモヤモヤしてくるのではないかと思います。
次回以降、また事例を使って説明したいと思います。