東京都オープンデータカタログサイトのデータ整備に対する1都民の意見
取り組みはうれしいが、今の状態で標準化するのはやめてほしい
こんなのを見かけた。
東京都とGovTech東京は、国と連携し、都内区市町村と東京都の子育て支援制度を一覧化した「東京都版子育て支援制度レジストリ」を公開しました。
— GovTech東京 (@GovTechTokyo) November 28, 2024
自治体や民間事業者等の皆さまのご協力を得て、より効果的なデータ活用を目指します。幅広い用途でご利用ください。https://t.co/khyUmQ3PWD
気になったのはこの東京都副都知事の標準化の話。
データ形式やデータ整備のための地道なノウハウは東京モデルみたいなローカル色な名前にせず、国と連携しながらジャパンモデルとして日本全体へ。事実上標準にしていきます。データ整備がないがゆえに必要な人が必要な情報を知りそびれてしまうことをこの国からなくしていきましょう。
— 宮坂@東京都副知事&GovTech東京理事長 (@miyasaka) November 28, 2024
最初に紹介されているGovTech東京のポストからたどると「東京都オープンデータカタログサイト」にたどり着く。
早速データを見てみた。率直な感想は「リードしてくれるのは大変ありがたいのだが、提供されているデータはもちろん、そこにたどり着くまでのWebサイトについてもいろいろと課題を感じるので、このまま標準化されてしまうのは困る」である。
なので都民として、そして標準化されるのであれば国民として感想と改善を希望する点を発信する意味はあるだろう。
ただし、現状このようになっているのにはいろいろな事情があるはずなので一方的に断罪しても何も生みださない。決定権も責任もない、利用者の視点で感じたもっとこうしてほしいということだけを書く。
標準化するのであればしてほしい最低限のデータ整備
データ整備に手間とコストをかけようと思えばいくらでもできるがどこかでやめるのは仕方ない。とはいえ最低限のことはやってほしい。
最低限、といってもまたその状況や人によって違いはあるとしても、その中でもあまりコストがかからない以下のようなことを求めるのに反対する人はいないだろう。
Excelファイルのセル結合をやめる
タイトルを1行目英語、2行目日本語にする(タイトルを1行にしてファイルを分けるという手もある)
データの仕様書をわかりやすいところにおく。Excelファイルには別タブに同じことが書いてあるとうれしい
タイトルに「フラグ」を入れるか入れないかで統一する
対象者年齢は数値で〇か月の上限と下限の2つにする
Excelファイルのセル結合をやめる
「Excelファイルのセル結合をやめる」は大事なことなので2度言った。
他にもデータ整備をしてほしいところはたくさんある
筆者は「データを手に入れてから分析に使わるまで」を考えるのが「データ整備」だと考えている。その視点で考えると、Excelファイルの中身はもちろんこと、ファイルにたどり着くまでをよりスムーズにすることや、メタデータのありかがすぐわかることも課題として捉えてほしい。
GovTech東京ホームのWebサイト
最初のリンクをたどるとGovTech東京のニュースのページに飛ぶ。
リンクの色が薄くてぱっと見てどこにあるかがわかりづらい。もう少し目立つ色にするか、あるいは本文の最初にリンクを置いてくれるといいかもしれない。個人的には後者の方が好み。
東京都オープンデータカタログサイト
GovTech東京のニュースのページのリンクからは東京都オープンデータカタログサイトの東京デジタル2030ビジョン(こどもDX)子育て支援制度レジストリに遷移する。ここでも気になったことがある。
JSONの3つの中身が違うならばファイル名を変えて欲しい→先週見たら3つあったのが週明け見たら1つになってたのでただのミスだったっぽい
READMEは内容が違うので区別がつく配置にしてもらった方がいい
「随時」ではなく更新履歴が欲しい
メンテナーへの連絡がすぐできるようにして欲しい(例としてメールアドレスの掲載やメールフォームへのリンク)
「探索」の内容がわからない。ファイルの種類によって項目が違う。このページに詳細とダウンロードとリソースのリンクがあったほうがわかりやすい気がする
過去分の格納場所へのリンクが欲しい
各ファイルの個別のページ
ファイル名もしくは「探索」からは各ファイルの個別のページに遷移する。
ここもリンクが見づらい
データの仕様を書いて欲しい
現状の追加情報はデータの利用者に役立つデータが少ない
更新履歴を書いてほしい
xlsxファイル
最低限のデータ整備として挙げたこと以外にも気になったこと
対象者は文章の表記ゆれがひどいので、よく使われるものだけでもフラグや区分が欲しい(その前に用語の共通化とかやるべきことがあるが)
更新日のカラムを追加してほしい
(あるのかわからないが)有効期限もあったらいいかもしれない
csvファイルも追加してほしい
提供方法もファイルでなく直接それぞれの環境にデータが入るような仕組みの方がいいが、これは東京都に言う話ではなさそう。
行政だからこそできるデータ整備に取り組んでほしい
データ整備をしなければデータ活用に、つまりは意思決定のための分析に大きな支障がでる。一方で、データ整備をすることによる利益を示すこともまた難しい。
だから営利企業ではデータ整備への理解が広まりづらく、投資することに躊躇してしまう。それがデータ活用の阻害要因となり、一層データへの投資が減る、という悪循環が起きていると考えられる。
だからこそ利益をすぐに考えなくてもよい行政こそがモデルとなってコストをかけてデータ整備を行い、良いデータの提供を行ってほしい。
そうすれば個々の企業でも整備しているつもりのデータが実はまだまだ整備をして改善する余地があることが伝わりやすくなるのでは、なんてことを考えている。
最後に、筆者は主にデータ整備を生業にしていることもあり売り込みのために大げさに言っているのではないか、といった無用な詮索をされても困る。なのでもし担当者でも誰でもいいけどこの話を取り入れるとしても自由にしてくれてよいし、なんなら自分の手柄にしてもかまわない。連絡も不要だ。行政のデータ整備が進めばそれでいい。