オープンデータはなぜ利用するのが大変なのか? ~格闘の記録~
今年一年を振り返ってみると、Tableau Prep とオープンデータの一年でした。オープンデータと Tableau Prep は極めて相性が良いです。Tableau Desktopからサーバーとかのデータに直接接続するわけでなく、Excel や CSVファイルをダウンロードして使うことが圧倒的に多いので。データも適度にキタナいです (笑) Tableau Prep の練習にはもってこいですよーーー。
オープンデータの中で「人口」は利用頻度が高いです。
人口の変化を知ることは、ビジネスを考える時にも、公共政策を考える時も、とても役立ちます。そして人口データは、様々な省庁サイト、自治体サイトで、オープンデータとして数多く登場します。「なんでこんなに沢山あるのかね?」というくらい。
人口データは、国勢調査と住民基本台帳ベースの二つの視点があります。二つだけならまだ簡単なのですが、住基台帳人口を5年毎に行われる国勢調査結果で補正し推計人口を算出してたり。おのずと様々な集計が多数点在し、いったいどれを見たら良いのかわからなくもなります。「これだ!」と信じて使っていたら途中の年度から数字が合わなくなったりします(色々集計の基準が変わったりすので)。このブログは、オープンデータとの格闘の記録です。今日までに何か「解」を見つけてブログを書きたかったのですが、まだ見つかっておりません。。。むしろ「怪」が深まるばかり。。。「お前バカなことやってんなー」くらいの気持ちで読み流して下さい。長いですから。(Tableau の Tips じゃなくてごめんね)
今回は、東京都の人口動態に絞って見ていくことにします。
最初にこんなことを思い描きました。
・人口推移が知りたいから30年分くらい必要かな
・市区町村レベルで違いが知りたいな
・性・年代別に動向が違うだろう
・増減要因も知りたい(少子高齢化問題に使いたい)
・外国人動向気になる。国籍別に知りたい
すごく当然な話でしょ? そんなに特別な要件ではありません。人口を分析するならこの程度は欲しいです。
「今はオープンデータ化が進んでるから簡単さ」「マイナンバーだってあるし、そんなの簡単に集計出来てるはず」「オープンデータカタログだってあるしAPIで取得して Tableauに食わせりゃ、ヒョイでしょ?」
こんなのがあったら、あとは Tableauで集計・分析出来るかな?
と頭の中でデータソースをデザインしました。
せっかく『東京都オープンデータカタログ』あるんだし、先ずはそこから見ていこう。サイトに行って「人口」で検索かけてみました。955件のデータセットが見つかりました。ちょっと情報が多いので組織を「東京都総務局」に絞りました。602件。まだ多い。。。
「人口減少・少子化」というグループがあるので、そこを訪ねてみました。17件。とりあえず何か見てみよう。「東京都の人口予測(区市町村、男女、年齢(5歳階級)別将来人口)」なんていうのがある! これは良さそう。
2015年までの国勢調査結果に基づいで東京都が予測したものだから信頼性は高いのであろうが、どうやって予測しているかは今一つ解りませんでした(ひょっとして情報古くない?)。その道の偉い先生方がされていらっしゃるのだろう。今回は予測がしたい訳ではないので詳細は後日とし、別のデータを探ることにしました。
要は、上記予測の過去実績があれば良い。あと国籍と増減要因別もね。
「ない」😢
それっぽいものはいくつかあるのだが、ズバリ上記のような人口実績がない。色々物色した結果、これを見てみました。新しそうだったから。
ひとつずつ見ていきましょう。
第1表 区市町村、世帯数、男女別人口(人口総数)及び人口密度(令和5、4年)
第2表 年齢(各歳)別1年間の人口増減(日本人)
第3‐1表 区市町村、年齢3区分別人口(人口総数)
第3‐2表 区市町村、年齢3区分別人口(日本人)
第3‐3表 区市町村、年齢3区分別人口(外国人)
第4表 区市町村別面積、人口総数に占める割合、一世帯当たり人員及び町丁数
第5表 区市町村、町丁別の世帯数及び男女別人口(人口総数)
第6表 区市町村、年齢(各歳)及び男女別日本人人口
第7表 区市町村、年齢(5歳階級)、日本人、外国人及び男女別人口
この表に辿り着くまで永遠と探すこと約2日程。まるでトライアスロンのようだった。途中何回かこのページに来たけど第7表まで見てなかった。詳細だから一番下なのね。で、これがあれば他はいらんね。Tableau ユーザーならそう考えるだろう。世帯数は別に持って、Tableau Desktop でリレーションシップかければ良い。
それでもって、これで経年履歴が欲しいのよ。
令和4年は直ぐに見つかりました。よしよし。
各年毎に探してみたけれど、、、一向に見つからない。
え?2年分しかないの? その前はどこ行っちゃったの?
ない😢
そんなバカな?と思い、五度見したけど、ない。
そうだ!東京都の統計サイトにあったような気がして行ってみたら、こっちにはあるじゃないの。
まあ年度ごとなら、一個づづダウンロードもお付き合いしましょう。
??? ??? ???
ない、、、東京都全体を一気にダウンロードするページがない、、、
検索し過ぎて目がおかしくなったのか?
「すみませ~ん、これ市区町村ごとにダウンロードするんですか?」
そのようです。。。
恐る恐る総数のページを開いてみる。祈り。
これだけか。。。そっとPCと目を閉じる。
「どこかにあるはずだ!」東京都の統計サイトはあきらめて、e-Statを探ってみました。人口統計と言えばe-Stat。これまた色々データがあるのですが、公開が遅いんですよね。全国集計になるから止む無しではありますが。e-Stat は、基本的に国勢調査データが多かったと思うが、住民基本台帳ベースの人口を探してみました。とりあえず「人口」で検索してみました。19件の調査のデータ、227,719 件のデータセット が現れる(2023年12月23日現在)。
気の遠くなる話だ。あれこれ探していると、面白そうなデータがたくさんある。ついつい寄り道しては「私のタスクは何でしたっけ?」と我に返りながら、住民基本台帳に基づく人口、人口動態及び世帯数調査 というのを見つけました。タイトルは探してるものにピッタリ!
最新年から見ていく。結構良さげ!
本当は、推移を一発で欲しいのだが、どうも年度ごとしかないようです。日本人、外国人を分けた集計は 2013年(平成25年) からであることは理解したが、これだと、年別にダウンロードして統合する必要があります。ここからやってみるか?
2023年度をダウンロードし、PREP,PREP,またPREP
注: Tableau PREP Builder は、データクリーニング、前処理を行うツールです
一回目の数値検証。合わない。。。
何でか?と調べたら、秘匿処理があって総計と内訳が合致しないオープンデータあるあるでした。しょうがないので差を年齢階級不明にして追加し、総計は合わせました(秘匿処理する場合、そこだけ消しちゃうんじゃなくて「不明」「秘匿」とかにして総計は合うようにしようね、TO: 総務省さん)
ならば、こっちのほうが速いんじゃないか? やってみよう! 区市町村ごとにやるより、よっぽど速い!(この時点で既に感覚がおかしくなってます) 但し、区市町村別があるのは 1995年から。外国人人口の集計が開始されたのは、2013年から。致し方ない。
PREP,PREP,またPREP
Preppn' Data やっててホント良かった。
注: Preppin ’Data は Tableau Prep の学習コンテンツです。
さあ!データ集まったぜ! データ加工は辛かった。。。でも数値検証はちゃんとやらなきゃね。
合わない😢
もちろん、e-Stat から取得したデータ元とは一致した。先ほどお見せした『東京都の統計』にある住民基本台帳による東京都の世帯と人口と合わない年があるんです。2014年以降はほぼ有っています。2013年以前は統計方法が異なるのか? どちらかが間違っているのか? 参考までに、東京都統計年鑑の数値も併記しておきます。こちらは国勢調査による補正が入っていますが、住基台帳の移動を増減させたものであれば、5年間は差異が同じになるべきではないか?とも思います。他にも資料によって別の数字になってるものもありました、、、さほど大きな問題ではないのですが、データを扱う者はこういうのが気持ち悪いです。興味がある方は、調べてみて下さい(そんな暇な人いないと思いますが)。
原因や理由をご存じの方がいらっしゃりましたらコメント下さい _(._.)_
住民基本台帳に基づく人口、人口動態及び世帯数調査
e-stat
住民基本台帳による東京都の世帯と人口(町丁別・年齢別)
東京都の統計
東京都統計年鑑 令和2年 2-1 人口の推移
TOKYO OPENDATA CATALOG
ということで、まだ増減要因(自然増減・社会増減)のデータ収集、検証には至ってません。ここまで来るのも信じられないくらい大変でした。一人でも多くの人にこの大変さを解って頂きたいです。人口データ、全然簡単じゃありませんでした。このイライラ感、やったことある人にしか解りません。「そんなの若い奴らに任せておけば」なんて言ってないで、是非、自分の手でやってみて下さい。そして、これと同じような作業を何千人、何万人の人がやってると思うと ZZZZoooo っとします。
国及び地方公共団体はオープンデータに取り組むことが義務付けられました。デジタル庁から自治体オープンデータ標準セットも発表され、データの標準化は間違いなく進むでしょう。しかしながら、人口データを見る限り標準化すれば解決するような問題にも思えません。また、標準フォーマットを見ると「これで大丈夫?」と思えるものも有ります。一言で言うと、本当に使う立場で考えれいるのだろうか?と。とは言え、今のとこと私には「解」はありません。使ってみて問題や課題を発信していくことが、その一助になればと思っています。オープンデータの活用が益々広がることを期待しています。
データを扱う人は、今回の私のように「人口が知りたい」(人口の動きを見たらフォーカスするエリアや性・年代による特性が何か見えてくるんじゃないか?)というポヤ~んとした考えでデータを探し始めます。探していくうちに、「そもそもどんなデータがあるんや?」(ないもの探しててもしょうがない、あるもので何が出来るか?)を考え始めます。色々な集計データがあって訳わからなくもなります。やりたかったことを見失なうこともあります。「もー、集計しないでそのまんま出してよ!」と怒り始めます。「市区町村別、性・年代別、国籍別の人口推移30年分ないですか?」(オレ Tableauで集計も分析も出来るから)とデータ管理者に尋ねたくなります。データ管理者から「何したいんですか? 目的は?」と尋ねられるとブチ切れたくもなります。
「分析したいんです」
分析したい時に、分析したいデータが手に入らないから、嘆き、叫ぶんです。欲しいデータが何処にあるか解っていて、必要な時に、必要なデータが手に入るなら叫びません。無いものねだりをしている訳ではありません。あるはずの、あるべきデータが、何故かない。
そういえば、どこかの会社でも同じような体験したっけな。。。
笑い話ではないですよ~
本当は、 #オープンデータスゴイ でサクサク Visualize できるデータを皆さんにクリスマスプレゼントしたかったのですが、諸事情によりサンタさんが吹雪で立ち往生してますので、もう少しお待ちください。
2023年の年の瀬が迫ってきました。皆さんはどんな一年だったでしょうか? 2024年が皆様にとって素晴らしいご活躍の年となり、真のオープンデータ元年になることを祈っています。良いお年をお迎え下さい。
令和5 (2023)年12月25日
もりたひろあき
(追記)2023/12/26
人口推計については、以下の計算が行われていることが解りました。
総人口:
基準人口 (国勢調査 10月1日現在) + 自然動態 +社会動態
日本人人口:
基準人口 (国勢調査 10月1日現在) + 自然動態 +社会動態 + 国籍移動増減
* 自然動態: 出生児数 - 死亡者数
* 社会動態: 入国者数 - 出国者数
* 都道府県別人口においては、社会動態に「都道府県間転入者数」-「都道府県間転出者数」を加算している
詳しくはこちらです👇
総務省『人口推計について』
https://www.stat.go.jp/data/jinsui/1.html#sakusei