見出し画像

日本の年齢中央値の経時的推移の視覚化をChatGPTにお願いしてみた

昨日の記事の流れの中で、日本では少子高齢化で年齢中央値が上がっていってるよという話をちょろっと書きました。

この年齢中央値が上がっていってる様子はぜひグラフで見てみたいなあと思い、年齢中央値推移のグラフを探したものの、意外とパッと出てこない。

ふむ。

ならば、せっかく課金したことだし、ChatGPT君にお願いしながら自分でグラフを用意してみようと思い立ったのでした。いい練習にもなりそうですしね。


さて、必要となる年ごとの年齢別人口分布のデータソースからしてまずChatGPT君頼りです。

ChatGPT君に聞いてみたところ、こちらを教えてもらいました。

国連が用意してる世界各国の人口データ。うむ。信用に足りそうです。

ここから、年齢別の人口分布のデータセット(エクセルファイル)をダウンロード。(実績値としては1950年〜2021年のデータが格納されてました。将来予測値は今回は不使用)

そのままChatGPT君に放り込んでみたものの、ファイルが重い(160MBぐらい)のと解析に関係ないノイズデータが多かったためか、さすがのChatGPT君も苦戦している模様で、エラーが続出しました。

なので、ここはこちらが手動で、必要最低限の日本のみのデータ部分だけ切り取ったシンプルなスプレッドシートを用意してあげて(Japanでフィルタリングしたのち今回の解析の核となる”Year”と"Total population by single age, both sexes combined (thousands)"の部分だけ新しいシートにコピペ)、読み込ませてみたところ、見事うまく行きました。

プロンプトで

年ごとの年齢中央値の推移を表で示してください。

と命じたら、さっくりこの通り。(本当は縦軸の表示や表示範囲を微調整してもらったけれど)

日本の年齢中央値の経時的推移
ChatGPT作成

恐ろしいほど楽ちんでグラフができた。これは面白いし、確かに便利。

そして内容的にも日本の少子高齢化のすさまじさがありありと分かる驚愕のグラフとなってますね。

年齢中央値とは、その値以下の年齢の人数と、以上の年齢の人数が等しいということですから、つまり中央値よりも年齢が低い人は「日本の中でまだ若い方」と言うことになります(高ければ「日本の中で年上の方」)。

で、その年齢中央値がご覧のように如実に右肩上がりに上昇し続けてるということは、年を重ねても日本の中でなかなか「年上の方に入らない」という事態になってると言えるわけです。

これまたChatGPT君に計算してもらうと、年ごとに年齢中央値が約0.38歳ずつ上がってるんですって。
毎年1歳ずつ上がるわけではないから、いつかは追いつくのですが、逃げる相手を追いかけるようなもので思いのほかなかなか年上半分に入らないと言うことになります。

その基準値が今は50歳ぐらいに達しているので、50歳未満であれば十分「今時の若いもん」という顔をしていてOKと言うことになりますね。

全国の50歳未満の皆さん。まだまだお若いですよ😉

※なお、年齢中央値が永遠に同じペースで上がり続けることもないはずなのでそこはご注意くださいね。


さて、いい感じのグラフができたとはいえ、ChatGPT君のことだから、ほんまにちゃんと計算してるのか心配になってきました。真顔で堂々と嘘をつくことがある(ハルシネーション)のがAIの恐ろしいところですからね(あ、でも、人間もそうですね)。解析のValidation(妥当性検証)は大事です。

しかし、計算するのが面倒だからChatGPT君に頼んでるのであり、自分で検算したらあんまり意味がないわけです。論文を書こうとしてるわけでもないですからできるだけ省力化でいきたい。(江草はズボラ人間なのです)

なので、とりあえずサンプルチェックとして1950年と2021年の年齢別人口分布のヒストグラムを作成してもらいました。平均値、中央値、最頻値も表示を指示。

1950年の日本の年齢別人口分布
ChatGPT作成
2021年の日本の年齢別人口分布
ChatGPT作成

パッと見、まあそこまで変な感じもしない。(現実問題としての日本の人口分布バランスのやばさには違和感はありありですが)

中央値の赤線もまあ妥当そうな場所に立ってる気はします。それなら、中央値推移のグラフもまるでデタラメってことはなさそう。

ただ、気になるのは0歳のとこに棒グラフが立ってないようにみえること。データ上はちゃんと存在してるので(グラフでなく表で出力を指示すると0歳児の人口も出してくる)、グラフの見た目上の問題なのかもしれません(少し縦棒の位置が全体に右にずれてるのかな?)。

それにしても、こういうヒストグラム表示も「1950年の日本の年齢別人口分布をヒストグラム表示して」と自然言語で打ち込むだけでぱっと作ってくれるの、ほんと楽ちんですね。

こういうデータいじりにはAIは便利な気がどんどんしてきました。「こうしろ」「作れ」って言ってるだけで、あれよあれよと言ううちにグラフができる。

これ結構すごいのでは?


と、言いつつ、グラフの正確性の裏取りのために、改めてあれこれ検索してみたら、なんと、日本の年齢中央値推移のグラフが見つかっちゃいました。

探しても見つからないから自分で作ったのに、作った途端に見つかるというのは人生あるあるですね。物を無くして仕方なく新しいのを買った途端に、無くしたと思ってた方が出てきちゃうみたいな。しくしく。

くしくも、こちらのサイトのグラフも同じくソースは国連の人口データの模様。

しかし、こちらのサイトでは、今回江草がChatGPT君に作ってもらった中央値よりも全体に1,2歳ぐらい若い感じですね。

その目で見てみると、先ほどの1950年のヒストグラムの最頻値(mode)が2歳となってるのは変ですね。0歳が最頻のはずなのに。

うーむ。やっぱり何かChatGPT君の計算がおかしいとこがあるのかもしれない。

ちゃんと確認するには結局、人力で検算するしかないのか。トホホ。めんどくさいよー。(ひどい)

まあ、おおまかなトレンドとしてはだいたい合ってそうなので、とりあえず今回の江草の提示した中央値推移のグラフは少し年齢高めに出てるかもしれないと思いながら見ていただければ十分かなと。

個人的にやってみたかったデータのグラフでの可視化と、ChatGPTでのグラフ作成の試行ができたので、江草的には満足です。

江草の発信を応援してくださる方、よろしければサポートをお願いします。なんなら江草以外の人に対してでもいいです。今後の社会は直接的な見返り抜きに個々の活動を支援するパトロン型投資が重要になる時代になると思っています。皆で活動をサポートし合う文化を築いていきましょう。