
意外とめんどくさかったオープンデータ
ただいまDATA Saber - Bridge 3rdに挑戦中のTableau🔰けーたろーです。
DATA Saber - Bridge 3rdの課題で下記のようなグラフ作ったりするのですが、作成するためにはもととなるデータが必要となります。

「データのもと」は、企業の営業活動や経営分析なら、売上データ、顧客データなどだったり、上記のような自治体の状況を表すためには、各自治体がホームページ等で公開しているオープンデータを利用する必要があります。
ところがこのオープンデータ、一見EXCELで加工しやすいし使いやすいかなーと思ったのですが、いざ使うとなると意外とめんどくさいことに気づきました。
意外とめんどくさかったポイント①ほしいデータがピンポイントで見つからない
色々と出されているのですが、「これがほしい!」といったデータがそもそもなかったり、見つけるのに難儀したりします。
例えば、「成田市の年齢層別の人口の推移を調べたい」となった時でも、成田市のホームページを探すと「成田市の人口推移」はあるけど、全人口で年齢別に分かれていない、「年齢層別の人口」が記載されているデータを探すと、年度別に違うファイルに保存されている、などなど…。
しかも、EXCELやCSVファイルであればよいほうで、pdfファイルのみだったりすると、数値を取り出すだけで一苦労でした。
意外とめんどくさかったポイント②横持ちデータが多い
「横持ちデータ」とは、行と列にそれぞれ異なる項目を配置し、行と列の対応で情報を表すデータ構造で、横に伸びていく形の表です。例えば、「1月〜12月」の数値を横に持っているようなデータですね。
縦と横の表形式で情報がまとめられているので、視認性がよい一方、Tableauのようなデータ分析ツールでは取り扱いづらいです。(横持ちのデータを縦持ちに変換できるPIVOTとかいう素敵機能で、加工する必要があります)
「縦持ち」と「横持ち」の特徴は下記のエントリーがわかりやすかったです。
意外とめんどくさかったポイント③中計・総計レコードが個別(市別)レコードと一緒に存在している
これが一番難儀だった。
今回、上記Vizを作成するのに、千葉県ホームページから「千葉県毎月常住人口調査報告書(年報)」というデータをダウンロードしたのですが、中身を見てみると、データに違った粒度のレコードが混在してどうしようかちょっと悩みました。
千葉市には、中央区、花見川区、稲毛区、若葉区、緑区、美浜区の6つの区があるのですが、それぞれの「区」ごとのレコードのほか、これらの区の合計値が入っている「千葉市」というレコードもまた存在しました。また、「県計」という総計のレコードもべつにありました。

これも、このEXCEL単体で見て把握しやすいように、人間に最適化された表現だと思いますが、同じデータとして扱い単純に集計してしまうと、重複して正常な値とならず、注意が必要でした。(せめて、入れ子表現にしたり、行の色変えるなど、視認性にも少し工夫してほしいところですが…)
この程度のレコードであれば、いったんそのまま取り込みフィルターなどで除外することも可能かもしれませんが、まだデータの取り扱いに慣れていない自分としては、気づかず紛れ込んでしまわないように予め取り込む前に削除することにしました。(この加工がめんどくさかった)
手作業はミスの可能性も潜在するのでできればしないほうがいいですよね・・・。こうした下処理をするために、Tableau Prepがあると認識しているのですが、まだほとんど触ったことないので、こちらも勉強していきたいと思います。
今回を機に、千葉県・成田市のオープンデータを中心に色々ダウンロードして見てみましたが、探したり加工するのに結構大変で、単純に「ダウンロード即はい可視化ー」とはいかないことがわかりました(当たり前だ)
e-statとかだと、構造化されてたりするのかな?Prep使うと加工楽なのかしら?と、色々とやりたいことや試したいことも出てきましたので、引き続き学びを深めていければなーと思います。