自治体データから読み取る「着実に進むDX」に必要なこと

2021年11月5日 14:53

創業以来、AIやDXについてのコンサルテーションを行っています。「DXに取り組んでいるのですが、なんだか上手く行かなくて」と相談されることがしばしばあるのですが、状況をお伺いすると、IT部門のメンバーだけにデータサイエンス教育を実施しているパターンを多く見受けます。

残念ながら、DXは社員の一部だけが頑張ってうまく進むものではなく、社内全体でDXが成功するために何が必要なのか？について、共通の認識を作り上げないと途中で頓挫してしまうものなのです。

今回は、これまでご相談いただいた事例を通して見えてきた「着実に進むDX」のポイントを、公開の進む自治体データを例として、具体的にご説明します。

各自治体の用意したデータには、正しく町丁別の人口が記載されています

東京都は、都政に関するデータの利活用を目的として、オープンデータを集めたカタログサイトを公開しています。このページには、各区や市町村が公開するデータページへのリンクが張られています。

恐らくですが、このページの作成にあたっては、東京都から各行政区に対し、例えば「町丁別の人口を公式ページ内に掲載し、その公開ページURLを教えて下さい」といった形で指示を出し、回収したURLを掲載したのでしょう。

会社においても「部署ごとの売上をまとめて、送ってください」というような上意下達の命令があると思います。この統計サイトは、それと類似の状況と考えられます。

さて、このカタログサイトには、各行政区の人口情報が掲載されています。新宿区の平成31年のデータを例にとってみます。

提供されているExcelファイルを開くと、各月ごとに、各町丁別の世帯数・男性・女性・合計の人数が書かれています。

次に中央区を見てみましょう。
全てのデータがZIPで圧縮されています。これを展開すると月ごとのExcelファイルが存在し、新宿区同様のデータに見えます。

Excelファイルを開いてみると、次のような形式で人口データがまとめられていました。確かに町丁別の人口が記載されており、情報公開が進んでいる様子が見て取れます。

「人が見やすい」データと「計算機が見やすい」データは異なります

さて、上記の新宿区と中央区の人口データを回収したとして、すぐにこのデータを統合し、分析できるでしょうか？

答えはNoです。多くの方は、後者の中央区の方が（配色はさておき配置としては）「見やすい」と感じたかもしれません。1ページに情報がまとまり、同一町名は繰り返されず、町ごとに太さを変えた罫線で区切られ、メリハリがあります。このデータを見る人が理解しやすくなるように、作成者が工夫して整理した様子が感じられます。

ところが、このデータは計算機で取り扱うという目線で見た場合、さまざまな問題を抱えている表示形式なのです。

例えば、9行目の左の列は京橋2丁目の人口になっています。計算機がこの9行目からデータを読み取る場合、以下の順番で確認作業が進みます。

1. 地域が空欄であることを確認する
2. 地域が記入されている行を探す
3. 上の8行目にある「京橋」をみつける
4. この行が京橋であるということを認識する

データが各行で完結していないため、このような手順を踏んで確認する必要があります。また、一行に異なる3つの町丁（上図では京橋・日本橋本石町・月島）の情報が含まれていたり、各町の合計人口が記載される行（黄色行）が存在していることも問題となります。

このため、計算機でこのデータを扱う際は、これらの問題を避けるための特別な命令を用意する必要があります。

対して、新宿区の情報はデータが各行で完結し、すべての行が同一の形式で構成されているので、計算機にとっては見やすい情報です。同様に、港区の人口データは以下のような計算機が理解しやすい表示形式となっています。

地区の情報列に何度も同じ名前が並び、人間の目から見ると冗長に感じるかもしれません。しかし、各行でデータが完結するという観点でデータを作成する場合、各行の要素は省略せずに全て並べる必要があります。このような形式が、計算機が扱いやすい形式となります。

関係者が理解し合うために、データリテラシーを高めよう

先の中央区の事例を、会社のIT部門と実際にデータ収集を行う現場部門に置き換えて考えます。

中央区の担当者は「気を使って、時間を使って」データを見る人間が見やすいようにデータを整えて提出したのだと思います。一方で、このようなデータをIT部門が受け取ると「空欄を埋め、行内の複数の町丁を分解し、合計列は無視する」というひと手間かかるデータと認識します。

IT部門は役立つはずのデータに対し「めんどくさい」という気持ちを持ち、現場部門はせっかくデータを用意したのに活かされない、というもやもやを抱えます。これらの行き違いが積み重なり、互いのコミュニケーションが途絶え、そしてDXプロジェクト全体が頓挫していきます。

このような齟齬を避けるには、データを作る方も使う方も、どのような形式なら準備がしやすくて、かつ利用しやすいのか、事前に話し合い、理解し合う必要があります。

しかし、IT部門が自部門に引きこもっていたり、データ収集の担当者がデータリテラシーを持っていないと、これらの話し合いも進みません。互いに理解すること、特に、データリテラシーについて全社的に理解を底上げしていくことが、DXの成功につなげるために最も大切なことと考えます。

---

AI・DX・データサイエンスについてのご質問・共同研究等についてはお気軽にお問い合わせ下さい！

「はじめてさんでもAI開発」を実現するノーコードツールです

この記事が気に入ったらサポートをしてみませんか？