
やさしく学ぶ統計学~ローレンツ曲線とは?~
みなさんこんにちは。和からの数学講師の伊藤です。今回は、ローレンツ曲線と呼ばれるデータの不均一さを可視化するグラフをご紹介します。これまでのグラフとは違った視点からデータを確認することができるので、この内容を覚えておくことで、今後の分析に応用することもできるかもしれません!
この記事の主な内容
1. 不均一なデータとは?
皆さんは、日本の人口の分布について調べたことはありますか?2022年の時点で、東京都・神奈川県・大阪府・愛知県・埼玉県と上位5都市の人口を合わせると、およそ4,500万人というデータがとられています。これは、都道府県が47あるにも関わらず、およそ上位10%の都市だけで日本の人口の30%以上を占めているということになります。これは、まさに人口の分布が「不均一」であることを意味しています。
仮にすべての都道府県の人口がほぼ「均一」であれば、上位10%の都市が占める人口の割合は日本全体の10%程度であり、上位50%の都市が占める割合は50%程度…というように分布しているはずです。本記事の主題となるローレンツ曲線は、まさにこういった「不均一さ」を可視化するものです。
次章では、ローレンツ曲線を描く準備をしていきます。
2. 不均一さを表現するための指標
ローレンツ曲線を考えるために、今回はある国の人口に関する度数分布表を使います。

50の都市をもつこの国の人口の分布の「不均一さ」を表現していきましょう。ローレンツ曲線を描くのに必要となるのは、各階級の累積相対度数と、累積相対人口です。(※累積相対人口という言葉は私が名付けたものです)
各階級の累積相対度数は、先ほどの度数分布を累積相対度数で表現し直すことで作成できます。

また、累積相対人口とは、階級ごとにその階級に属する都市の人口の総和をもとめ、その値の全体に対する割合を累積させたものです。今回の場合、人口が0~200万人の都市における人口の総和が28,412,098人となり、これは総人口170,000,000人の16.7%です。このような計算を階級ごとに行い、相対人口を累積させた表が次の結果になります。

これで、ローレンツ曲線を描く準備ができました!
3. ローレンツ曲線
以上の2つの指標を使って、ローレンツ曲線を描きます。横軸に累積相対度数をおき、縦軸に累積相対人口を置いたものがローレンツ曲線です。実際に描いてみると、以下のようになります。

このグラフは、「下位何%分のデータが、全体の値の何%を占めているか」を可視化していることになります。また、グラフ内に描かれている赤い点線は、データが完全に均一な状況を示す線(完全平等線)です。この直線から離れた挙動であればあるほど、データが不均一であることが分かるのです。
ローレンツ曲線は、一般的には所得や貯蓄などの不均一さを示す際に使われることが多いグラフです。「世界の富の半分は上位1%の富裕層が持っている」という話をよく聞きますが、このデータに関してローレンツ曲線を描いてみると、グラフの右端部分で急激に増加するグラフとなることが予想できます。

変わった使い方のグラフである分、可視化できる内容もこれまでのグラフとは異なってきます。ぜひローレンツ曲線の使い方は覚えておきましょう!
●和からのセミナー案内
Excelを用いたデータ分析のストーリーや可視化のスキルを学んでいくセミナーのご紹介です。興味を持っていただけた方は、ぜひ覗いてみてください!
●和からのセミナー一覧はこちら
●お問い合わせフォームはこちら
<文/伊藤智也>