見出し画像

文系でもわかる数字の罠 [平均値と中央値]

こんにちは。TKB84です。

ずーっと気になっていて、ずーっと記事にしたかった。何度も書きかけて、お蔵入りしていた記事をようやく完成させるときが来ました。笑

テーマは、タイトルの通り、

文系でもわかる、数字の罠

です。

最初に書こうかなと思ったのは、Bリーグの選手の平均年俸、のニュースか何かが出たときですかね。

そして、自分も登壇させていただいた(そしてほろ苦い思い出となりました笑)Sports Analytics Japan (SAJ) 2020についてのツイートを眺めていたら、興味深いツイートが。

アメリカの方はいざ知らず、日本に関してはだいぶ自分が普段いろんなチームの人から聞いている話とかけ離れいるなあという印象を受けました。

このツイートから起こった議論とは全く話は逸れますが、このときも書こうと思いました。(そしてまたお蔵入りになりました。笑)

▶平均値が生むミスリード

世間一般のニュースでも、スポーツ界のスタッツでも、”いわゆる”データ関連の記事などで一番目にする機会が多い数値は、平均値だと思います。

そして皆さん、平均値と聞いたら

その取り上げられている集団で最も一般的な(事象が多い)箇所を示しているはず

と直感的に感じるのではないでしょうか。自分も同じです。

ただ、実はそうではないことがあるよ、というのが今回の記事の趣旨です。

 ▶簡単な解説

さて、説明のために簡単なグラフを作ってみました。ある企業に勤務する社員さんの年収の一覧だとしましょう。

スクリーンショット 2020-04-05 18.57.51

A-Dさん:年収300万円
Eさん:年収1,500万円
Fさん:年収500万円
Gさん、Iさん:年収400万円

だとします。このとき、この8人の平均年収はいくらでしょうか?

平均年収:(300*4+1,500+500+400)/8= 500万円

500万円なんです。
8人のうち、500万円以上もらっているのは2人しかいないのに。。。

平均値では、極端な値がある場合にそれも考慮してしまうので、直感的な値とズレが生じてしまいます。
それを克服する数値はないのでしょうか?次項で紹介します。

▶代案としての中央値

聞き慣れないかもしれませんが、中央値という値があります。
これは、

データを並び替えたときに真ん中にあたる数値
(個数が偶数の場合は中央の2つの平均)

を表します。

先程の例に照らし合わせてみると、データを並べたときの4番目と5番目は300万円、400万円なので、

年収の中央値:(300+400)/2=350万円

となります。

こちらの方が、より感覚に近い値なのではないでしょうか。

▶まとめ

当たり前ですが、平均値は絶対ダメ!中央値100%バンザイ!というつもりは一切ありません。どちらの値にも、良いところ悪いところがあります。それを理解した上で、様々な記事に触れるべき、データを扱うべきなのかなと思って筆を取った次第です。

この記事が気に入ったらサポートをしてみませんか?