東京都オープンデータカタログサイトのデータ整備に対する1都民の意見

取り組みはうれしいが、今の状態で標準化するのはやめてほしい

こんなのを見かけた。

気になったのはこの東京都副都知事の標準化の話。

最初に紹介されているGovTech東京のポストからたどると「東京都オープンデータカタログサイト」にたどり着く。

早速データを見てみた。率直な感想は「リードしてくれるのは大変ありがたいのだが、提供されているデータはもちろん、そこにたどり着くまでのWebサイトについてもいろいろと課題を感じるので、このまま標準化されてしまうのは困る」である。

なので都民として、そして標準化されるのであれば国民として感想と改善を希望する点を発信する意味はあるだろう。

ただし、現状このようになっているのにはいろいろな事情があるはずなので一方的に断罪しても何も生みださない。決定権も責任もない、利用者の視点で感じたもっとこうしてほしいということだけを書く。

標準化するのであればしてほしい最低限のデータ整備

データ整備に手間とコストをかけようと思えばいくらでもできるがどこかでやめるのは仕方ない。とはいえ最低限のことはやってほしい。

最低限、といってもまたその状況や人によって違いはあるとしても、その中でもあまりコストがかからない以下のようなことを求めるのに反対する人はいないだろう。

  • Excelファイルのセル結合をやめる

  • タイトルを1行目英語、2行目日本語にする(タイトルを1行にしてファイルを分けるという手もある)

  • データの仕様書をわかりやすいところにおく。Excelファイルには別タブに同じことが書いてあるとうれしい

  • タイトルに「フラグ」を入れるか入れないかで統一する

  • 対象者年齢は数値で〇か月の上限と下限の2つにする

  • Excelファイルのセル結合をやめる

「Excelファイルのセル結合をやめる」は大事なことなので2度言った。

他にもデータ整備をしてほしいところはたくさんある

筆者は「データを手に入れてから分析に使わるまで」を考えるのが「データ整備」だと考えている。その視点で考えると、Excelファイルの中身はもちろんこと、ファイルにたどり着くまでをよりスムーズにすることや、メタデータのありかがすぐわかることも課題として捉えてほしい。

GovTech東京ホームのWebサイト

最初のリンクをたどるとGovTech東京のニュースのページに飛ぶ。

リンクの色が薄くてぱっと見てどこにあるかがわかりづらい。もう少し目立つ色にするか、あるいは本文の最初にリンクを置いてくれるといいかもしれない。個人的には後者の方が好み。

東京都オープンデータカタログサイト

GovTech東京のニュースのページのリンクからは東京都オープンデータカタログサイトの東京デジタル2030ビジョン(こどもDX)子育て支援制度レジストリに遷移する。ここでも気になったことがある。

  • JSONの3つの中身が違うならばファイル名を変えて欲しい→先週見たら3つあったのが週明け見たら1つになってたのでただのミスだったっぽい

  • READMEは内容が違うので区別がつく配置にしてもらった方がいい

  • 「随時」ではなく更新履歴が欲しい

  • メンテナーへの連絡がすぐできるようにして欲しい(例としてメールアドレスの掲載やメールフォームへのリンク)

  • 「探索」の内容がわからない。ファイルの種類によって項目が違う。このページに詳細とダウンロードとリソースのリンクがあったほうがわかりやすい気がする

  • 過去分の格納場所へのリンクが欲しい

各ファイルの個別のページ

ファイル名もしくは「探索」からは各ファイルの個別のページに遷移する。

  • ここもリンクが見づらい

  • データの仕様を書いて欲しい

  • 現状の追加情報はデータの利用者に役立つデータが少ない

  • 更新履歴を書いてほしい

xlsxファイル

最低限のデータ整備として挙げたこと以外にも気になったこと

  • 対象者は文章の表記ゆれがひどいので、よく使われるものだけでもフラグや区分が欲しい(その前に用語の共通化とかやるべきことがあるが)

  • 更新日のカラムを追加してほしい

  • (あるのかわからないが)有効期限もあったらいいかもしれない

  • csvファイルも追加してほしい

提供方法もファイルでなく直接それぞれの環境にデータが入るような仕組みの方がいいが、これは東京都に言う話ではなさそう。

行政だからこそできるデータ整備に取り組んでほしい

データ整備をしなければデータ活用に、つまりは意思決定のための分析に大きな支障がでる。一方で、データ整備をすることによる利益を示すこともまた難しい。

だから営利企業ではデータ整備への理解が広まりづらく、投資することに躊躇してしまう。それがデータ活用の阻害要因となり、一層データへの投資が減る、という悪循環が起きていると考えられる。

だからこそ利益をすぐに考えなくてもよい行政こそがモデルとなってコストをかけてデータ整備を行い、良いデータの提供を行ってほしい。

そうすれば個々の企業でも整備しているつもりのデータが実はまだまだ整備をして改善する余地があることが伝わりやすくなるのでは、なんてことを考えている。

最後に、筆者は主にデータ整備を生業にしていることもあり売り込みのために大げさに言っているのではないか、といった無用な詮索をされても困る。なのでもし担当者でも誰でもいいけどこの話を取り入れるとしても自由にしてくれてよいし、なんなら自分の手柄にしてもかまわない。連絡も不要だ。行政のデータ整備が進めばそれでいい。

いいなと思ったら応援しよう!