30年後の人口を可視化 データアナリストへの道#24
まずはじめに、令和6年能登半島地震において多くの方が被災され、大変な思いをされていらっしゃいます。被災者の皆様には、一日も早い復興を願っています。
こちらのnote、全国の様々な方に読んでいただいていますが、皆様が無事で平穏な日々を送れていることを願っております。
改めての自己紹介
官民連携でデジタル技術を活用して地域課題の解決を目指す山口県のデジタルコミュニティ「デジテック for YAMAGUCHI」(https://digitech-ymg.org/)の中の人、ハラマルです。
サッカーJ2リーグは、2月下旬の3連休から2024シーズンが始まります。
巷の噂では、我らがレノファ山口の補強が相当良いものになっているとのことで(個人的には、推していた選手ばかりがいなくなったので凹んでいる部分はありますが)、かなり期待できるのではないかと思います。
「毎年同じように言っていない?」と言われますが、ホントに今回は違いますよ。説明しだすと、1つの記事丸々必要になるので省略しますが、リアルで会った方には、一人ずつに熱弁して回ろうと思っています!
さて、年が明けたのと、久々のデータ分析なので、改めて自己紹介します。
この「データアナリストへの道」は、完全文系人間の私(ハラマル)が、独学でデジタルツール(無料!)を使って、公開されているデータを分析してみるというシリーズです。
これを読んでいただいて、データ分析に興味をもってもらいたいなぁと思っていますが、その深淵に秘めている狙いは、文系の素人が無料ツールでこんなことできるなら私もやってみようかなという文系デジタル人材の育成のきっかけになったり、うちの社内のデータも分析してみようかなというデータ利活用のきっかけになったり、データをオープンにしておくって大事だよねという機運醸成につながったら嬉しいなぁと思っています。
さらに、「デジテック for YAMAGUCHI」って何やっているの?とか、データ分析をしてみたいけれどどこに相談したらいいの?(→やまぐちDX推進拠点「Y-BASE」(https://digitech-ymg.org/y-base/)です!)につながると、大成功かなと思います。
そして、裏の目的としては、職場に黙ってレノファ山口の話題を無理やりにでも差し込み、レノファに興味を持っていただける人がいれば、願わくば一緒に応援してもらえれば、と企んでおります。
この目的は未だ全然達成していませんが、昨年末、レノファ山口さんの企画で私のnote記事が会長賞を受賞させていただいたので、「いや、そっちの成果出してどうするんじゃい!」という内部批判にさらされている今日この頃です。
そろそろ、データ分析の方で成果出さないと怒られそうです。
というわけで、良かったら、マガジンにしていますので、過去のものも見てみてください。今振り返っても、面白いデータって、いろんなところで公開されているんだなぁと思います。
読んでいる皆さんも簡単に真似できるツールやスキルを使っています。
日本の将来推計人口
ようやく本題です。
今回分析するデータですが、新年早々なので華やかなものを考えていましたが、やはり昨年大きな話題になったものにしましょう。人口推計データです。
日本の将来推計人口については、「国立社会保障・人口問題研究所」というところが研究しており、そこが推計するデータは、年金を初めとする国の重要な政策の基礎的な資料として活用されているそうです。
う~ん、確かに、それぞれの省庁が好き勝手に予測したら、それぞれの都合の良い推計になってしまうかもしれませんので、こういう重要なデータは、しっかりとしたデータを共有することは非常に重要ですね。
その最新値は、令和2年(2020年)の国勢調査の結果を基に算出されています。
昨年の4月には、日本全体の推計が公表され、「50年後(2070年)には人口が約7割(1億2,600万人→8,700万人)になる」という報道もありましたので、記憶にある方もいらっしゃるのではないでしょうか!?
そして、昨年の12月22日には、30年後(2050年)までの都道府県別・市町村別の内訳が公表されました。
我が山口県は、2045年には100万人の大台を下回り(99.1万人)、2050年には92.6万人という推計が明らかになり、各報道機関での報道があったところです。
100万人を下回ったからといって、何か特別な事態に陥るわけではないのですが、かなり厳しい数字のように思います。
が、イマイチ、ピンときませんね。
ということで、今回は、この12月に公表された都道府県別・市町村別の人口推計データを可視化してみようと思います。
データの整理
では、国立社会保障・人口問題研究所のHPからデータをダウンロードしてみます。Excelで開いてみると、次のような状態でした。
D列に市区町村名があって、E列には2020年~2050年まで5年毎の数字が入っています。画面を横に見ていくと、F列から男女合計(総数)の5才毎の区分があって、それぞれに対応する人口の数が入っています。もっと右にいくと、男性の5才毎、女性の5才毎と並んでいます。
う~ん、これはいわゆる、人が見ることを想定したデータ形式ですね。
確かにこれは、データがきれいに並んでいて、各行・各列がどんな項目か分かりやすいし、見やすいんですけれど、セル結合されていますし、13,662行もあるんですよ。これを全部目で見て分析できる人っていないですよね?
そしたら、このデータってツールを使う前提ではないでしょうか?それならば、ツールで使いやすいかたちで提供してくれるようになるとうれしいです。
これ、私も自分でツールを使うようになって分かったのですが、このExcelのように、行と列に別の属性項目を配置し、その交差したセルを参照するというのは、人の目では分かりやすですが、ツールに入れたときに集計しづらいです(やり方があるのかもしれませんが、私にはできません)。
このような場合、データを並べ直して、データ(今回の場合は人口)は1行につき1つしかない状態に変更します。
横方向にずらっと並んでいるデータ(人口の値)はどうするのかというと、縦に並べていきます。いわゆるデータの「縦持ち」というかたちです。
今回は、並べ直すに当たって黄色の列を追加しました。例えば、2行目を見てみると、「北海道・2020年・男・0~4歳」に対して、データ(人口の値)は83,139の一つだけ、というわけです。
この横にも長い表を縦に並べ直した結果、546,281行までになりました。ひえー。
Tableauでの分析
Tableauとは
それでは、これを「Tableau(タブロー)」というツールを使って分析してみます。
このTableau、なんと無料で使えることができます。無料版だとクラウド上にデータ保存することになりますが、公表しないこともできます。クラウドに保存したくない方は、分析までして保存しない(スクショを取るとか)という方法を採るか、有料版だとローカルにも保存できます。
こちら、データの可視化を、視覚的・直感的な操作だけでできますし、変形や修正も簡単にできます。
なので、あらかじめ「こういうグラフを作ろう」と思って取り掛かるのではなく、もしかしたら何か関連性があるのか?どの項目の関連性が強いのか?弱いのか?を探っていくことに使うと非常に良いと思います。
私の場合、どんな関係性が見えるか、どんなグラフになるか、全く分からない状態で作業して、面白そうな内容をnote記事にしているというカンジです。(なので、毎回うまくいくとは限りません…)
今まで使われたことがない方は、新しいデータ探索の体験になると思いますので、一度、やってみてくださいね。
全国の状況
それでは、Tableauを起動して先ほど加工したExcelを読み込ませます。
まず、私が一番好きなマップで見てみようと思います。都道府県別の人口を2020年と2050年で比較してみましょう。
それが次の図になるのですが、これ、何ステップでできたと思いますか?
答は、(大きく言うと)たったの3ステップです!
「都道府県」の項目が、地理データであることを設定する
グラフのスタイルをマップにして、人口を表示させる
フィルターをかけて、都道府県のみ(市区町村のデータを外す)・2年分のみ(他の年を外す)にする
はい、簡単ですね。すぐにできます。
もっとビジュアル的に工夫もできますが、今回はシンプルにしておきましょうか。
できたマップを見ると、面積が大きい北海道なんかは人口が減っている(色が薄くなっている)のが分かりやすいですが、それ以外はちょっと分かりづらいですね。
分かりにくいということは失敗ですね。じゃあ作り直しましょう。作り直しも簡単にできるのがTableauの長所です。
このグラフで失敗したのは、人口という数値を色分けしたことです。そもそも、人口は地方と都市部の間で差が大きいので、それを色分けしても、分かりづらい、要するに、東京都と比べたら少ないことしか分からないということのようですね。
それでは、30年間の都道府県毎の人口増減率でみてみましょうか。
まず、基準とする2020年の人口です。
例えばExcelだと、5歳毎・性別毎にデータがあった場合、その総数は、関数を使って足し上げる必要があるかと思います。
が、Tableauだと、そんなことをせずに、データ抽出条件を決めておけば、その条件にあったデータを合計することができます。
これを利用して、2020年分だけのデータを抜き出して足し上げましょう。「計算フィールドの作成」という作業で次のような指定をすればOK。
同じように2050年人口を作成し、2020年比のデータセットを作成。
このデータを使ってマッピングした姿がこちらです。
1.0未満(つまり減少)は赤、1.0以上(つまり増加)は青にしてみましたが、かなり赤に寄っていますね。都道府県単位で増加するのは東京都だけです。しかも、その値は1.025ということで、微増ですね。
これを年齢別に見たらどうでしょう?例えば、10歳未満と75歳以上としましょうか。
Excelだと、10歳未満の合計(=0~4歳+5~9歳)、75歳以上の合計(=75~79歳+80~84歳+85~89歳+90~94歳+95歳以上)を新たに算出して2020年と2050年を比較する必要がありますが、Tableauだと、抽出条件を組み合わせるだけで可視化できます。
今回は、先ほど作った計算フィールドとフィルター(年齢区分のうち必要なものだけにチェック)を組み合わせました。イチイチ計算せずとも視覚化できるのが便利ですね。
山口県は、今後30年で、10歳未満が約6割(58.2%)になる一方、75歳以上はほぼ横ばい(101.8%)になる推計となっているようです。
次に、市区町村別に見てみましょう。はい、区分を都道府県から市区町村に変更するだけです。
市区町村別に見てみると、2020年から人口が増加する(青色でプロット)ところがいくつか見えますね。
ちょっと細かすぎるので、増加率上位10位と下位(減少)10位を抜き出してみましょう。
これには、今回、ネットで調べた新しい技術「セットの結合」を使ってみましょう。複数のフィルター条件を同時に適用できるというものです。(初めてのテクニックだったので個人的に興奮しましたが、そんな難しい操作ではなかったので、説明は省略ww)
増加率(青色)トップ10には東京都の5区が入っていますが、それ以外にも、千葉県流山市・印西市、埼玉県さいたま市緑区、茨城県つくばみらい市が入っています。
関東以外だと、唯一、沖縄県中条村がランクインしています。
ワースト10(減少率が大きい。赤色)を見てみると、奈良県の5村、北海道の2市などが入っています。
ワーストの群馬県南牧村では、2050年人口が2020年の0.25ということなので、30年で人口が1/4になるという、かなり衝撃的な数字となっています。
次に、年齢別でみてみましょう。
2020年時点で、かなり少子化が進んでおり、若年層の人数が非常に少ないことが分かります。
30年後の2050年には、単純に全員が30歳年齢を重ねるので、山の頂点が上に移動するとともに、山の頂上が低くなっているのが分かります。(各年の横軸は同一にしています。)
ちなみに、このうち山口県分を赤色にしてみたのですが、ほとんど分からない程度ですね。
かといって、山口県の状況を軽視することはできません。
ということで、次は山口県の状況を分析してみます。
山口県の状況
まずは2050年人口の2020年比です。
山口県全体では、今後30年間で人口が約7割(69.0%)になり、市町別に見ると、最も減少率が高いのは周防大島町で、人口が半分以下(43.0%)になるという推計になっています。
年齢別に見てみると、以下のようになります。
まずは10歳未満。県全体で58.2%という中、最も減少率が少ないのが下松市で、それでも約3/4(75.3%)となっています。
最も減少率が高いのは、美祢市で、約1/4(26.8%)となっており、その数字が小さいことと合わせて、県内でもかなり格差があるのは驚きです。
次に75歳以上ですが、こちらは青色の棒が見られます。1.0を超える、つまり増加になる市町がありますね。
山口県全体でほぼ横ばい(101.8%)となる中、増加率が最も高いのは山口市で、約1.3倍(129.0%)になる推計です。防府市、下松市、和木町、周南市、宇部市、田布施町までが増加になる見込みです。
減少率が最も高いのは上関町で、約半分(47.3%)になるという推計になっています。
どうも、年齢毎に増減の動きの違いがあるようですね。
それでは、年齢別でもう少し詳細に分析してみましょう。5歳年齢毎の2050年人口(2020年比)を、市町別にプロットしてみました。(90歳以上の区分は、母数が少なかったため、市町によっては3倍を超える異常値があったため、90歳未満としています。)
また、市町毎のバラツキを見るために、「箱ヒゲ図」というものを重ねてみました。箱ヒゲ図とは、箱(四角い色塗り)とヒゲ(横線と縦の区切り線)からなるもので、箱の中に25~75%のデータが収まるようになっており、この箱の大きさでバラツキの度合いを見るというものです。ヒゲは、基本的には最大値と最小値ですが、あまりにバラツキが大きすぎる場合は、外れ値となってヒゲがかからないようになています。(機械学習の場合などに、異常値として取り込まないようにするために使われたりします。)
さて、やってみましたが、色が多すぎて意味不明ですね。ちょっと失敗。
先ほどの棒グラフで特徴があった、山口市・下松市・美祢市・周防大島町・上関町に絞って着色してみましょう。
これで少し見やすくなったでしょうか?
まず注目したいのは下松市(赤色)です。0~69歳までは、どの年齢区分でも、ほぼトップになっています。55~64歳の区分は1.0を超えて増加になっています。特に60~64歳は外れ値になっていますので、他の市町との差が大きいことが分かります。55~64歳ということは、2024年時点でいうと29~38歳ということで、この現役の若手世代の増加が、おそらく、その子供世代における人口減少の食い止めにつながっているものと考えられます。
続いて、70歳代を過ぎると、山口市(黄色)が県内トップとなります。特に75~79歳代の増加率123.8%は、この推計の中で最も大きくなっています。この世代は、2024年時点では49~53歳ということで、まさに「団塊ジュニア世代」になります。
山口市の場合、団塊の世代での人口増加が大きく、その影響で団塊ジュニア世代の増加につながっており、そしてその子供たちの世代における人口減少の食い止めにつながっているものと考えられます。
続いて、10歳代の減少率が最も大きかった美祢市(緑色)です。75歳以上の年代では、箱の中に位置していますので、県内でも平均的な増減率です。
が、それより若い世代になっていくと(表の上方になっていくと)箱をはみ出して下位に位置するようになり、25~29歳の区分で県内最下位となります。それより若い世代は、ほぼ県内最下位となっています。
美祢市の場合、県内の平均的な増減率から、最下位と転じていますので、人口の市外への流出や出生率の低下による人口減少が見込まれているものと考えられます。
ただし、これは、約30年後における30歳未満の人口で、まだ生まれてきてもない方たちの世代です。もう生まれてきている世代であれば、今〇人なので10年後・20年後は〇人というのはある程度算出できますが、それとは精度が全く違うものと考えられます。
この辺り、この推計が当たるのか当たらないのかは、これからの行動に掛かっていると思います。
75歳以上の減少率が最も大きかった上関町(オレンジ色)は、高齢者の区分だけでなく、25歳以上の区分で県内の最下位に近い位置にいます。
が、それより若い世代では減少率は県内の平均的な位置(箱の中)に改善しています。20~24歳の区分では県内でトップ5になっています。
上関町の場合も、美祢市と同じことが言え、今後人口減少率の改善が見込まれているものの、まだ生まれてきていない世代のことであるため、これからの行動に掛かっているものと考えられます。
最後に、県内市町で最も人口減少が進むと推計されている周防大島町(青色)です。
周防大島町の場合、全ての年代で県内の平均的な位置(箱の中)に入らず、下位に位置しています。
人口増加率が最も高い世代でも53.2%(75~79歳)であり、それより若い世代では50%を割っているため、このままいくと、推計どおり人口が約半分(47.3%)になるという現実が実現する可能性が高いと考えられます。
10歳未満を横軸に、75歳以上を縦軸に、人口増加率をプロットしてみると、下の図のように、4つのクラスターに分けることができました。
山口市、下松市のほか、防府市、和木町は、75歳以上が増加し、10歳未満は75%程度になるグループ。
下関市、宇部市、岩国市、光市、柳井市、周南市、山陽小野田市、田布施町は、75歳以上がほぼ横ばいで、10歳未満は50~60%になるグループ。ここに山口県全体も含まれます。
美祢市のほか、萩市、長門市、平生町、阿武町は、75歳以上が70~80%になり、10歳未満が25~40%になるグループ。
周防大島町、上関町はそれよりも減少が大きいグループです。
最後のグラフとして、10歳未満・75歳以上の人口増加率と、全世代での人口増加率を可視化してみました。
縦軸が全世代の人口増加率となっており、左が10歳未満、右が75歳以上を横軸に取ったものです。
こうやってみると、左の図の方が傾向線が立っていますね。つまり、10歳未満の人口が増えた方が、全世代の人口増加率の上昇と関係性が高いということが読み取れます。
「75歳以上の増加の方が人口増加の関係性が高い」というより、希望がある状況でしょうか!?
まとめ
人口推計のデータを基にいろいろ分析してみましたが、厳しい数字が並ぶ一方、30年後となるとまだ生まれてきていない世代次第なところもあり、必ずしも悲観する必要はないのかもしれません。
ライフスタイルや価値観が多様化する中、子どもを持つという考え方を押し付ける気もなく、そこは、個々人の選択の結果、どうなるかではあるかと思います。
ただ、人口減少は確実に進展していて、避けては通れない道です。30年後の30歳未満なら、今からたくさん子供が産まれたら増える可能性も理論上は残されてはいますが、それ以上の年代は、今いる人数が最大値であり、これを増やすことはできません。かなりの確度で、この推計どおりの人口増減が進むことが想定されます。
こうした中、今までと同じことを同じようにやっていては手が回らなくなるのは明らかです。
もっと少人数で効率良くできるように、もっと新しいことに踏み出せるように、もっとみんなが便利になれるように、デジタルを活用した変革に乗り出すことを検討されてはどうでしょうか。
やまぐちDX推進拠点「Y-BASE」では、山口県内の企業や団体、民間の方のデジタル活用を、相談から実現までフルサポートしており、無料で利用することができます。
まずは、一度、お悩みやお困りごとをご相談ください。
私じゃない、ちゃんとしたDXコンサルタントがサポートしますし、無理矢理レノファ山口の話題を差し込むことはしませんので、ご安心ください。
皆様のご利用を、心からお待ちしております。