見出し画像

〜大学生から始めるデータサイエンス〜平均値の落とし穴

こんにちは。この春から大学生になったとある学生さんです。今日は、データ分析の初歩となる、そして、欠かせない値である平均値について記事の例をあげて考えていこうと思います。
突然ですが皆さん、以下の記事を見てみてください

2020年の1世帯当たり貯蓄、平均1,791万円 - 2年連続増

総務省は5月18日、「家計調査報告(貯蓄・負債編) 2020年平均結果の概要(2人以上の世帯)」を発表した。

1世帯当たりの貯蓄、2年連続増加


1世帯当たり貯蓄現在高(平均値)は前年比2.1%(36万円)増の1,791万円となり、2年連続の増加。中央値は1,061万円(前年1,033万円)だった。また、年間収入は同0.8%(5万円)増の634万円、貯蓄年収比は同3.5ポイント増の282.5%となった。

エキサイトニュース
https://www.excite.co.jp/news/article/Cobs_2239746/

皆さん、この記事をご覧になってどう思ったでしょうか。
「貯蓄の平均値が1791万円?!!、めっちゃ高いやん!!!しかも増えているってことはみんなの生活がより豊かになってるってことじゃん!!」
私は最初この記事を見たときこう思いました。では、この結果をグラフに表すとどんなふうになるのでしょうか。記事の元となったデータを見てみましょう

総務省統計局 家計調査年俸(貯蓄・負債編)
令和2年(2020年)https://www.stat.go.jp/data/sav/2020np/pdf/gy01.pdf

このグラフは横軸が貯蓄高、縦軸が世帯の割合を示しており、貯蓄高が高くなるにつれて世帯割合が低くなっていることがわかります。残念なことに、貯蓄高100万円未満の割合が圧倒的に多く、一部の高所得者が多くの貯蓄高を持っていることによって平均値が1791万円と跳ね上がっているのです。
この結果から見て取れるように、平均値が高いからといって、皆が総じて値が高いということにはならないことがある、ということがわかります。このような誤った認識を防ぐためには、先ほどのようにグラフを用いたり、中央値や最頻値(モード)など、複数のデータを組み合わせて、多角的に物事を分析し、データの値の背景をしっかりと把握する必要があるのです。

いかがだったでしょうか。たかが平均値、されど平均値。と少しは感じていただけたのではないでしょうか。このように、私はデータ分析について、データの背景や注意点、使い方についてこれから発信していきたいと思います。少しでも参考になった!と思う方は、いいねしていただけるととても嬉しいです。ここまで読んでくださり本当にありがとうございました!最後に私が大好きな映画「君の膵臓をたべたい」の劇中の言葉を一つ紹介して終わりとしようと思います。

「好きなのに嫌い、楽しいのにうっとおしい。そういうまどろっこしさが、人との関わりが、私が生きてるって、証明だと思う」
住野よる 君の膵臓をたべたい 桜良

いいなと思ったら応援しよう!