コードの話
デジタル化のためのデータ活用、データ活用のための基礎知識も整理していきたいと思います。
データを扱う上で、特にデータ分析界隈では前処理が8割といわれます。
〇〇分析で~とか、難しい分析も計算自体は機械?がやってくれるので、分析ロジックに流し込むまでが大変でざっくり8割くらいの労力が分析に入る前の前工程(データをきれいにしたりする工程)に割かれるという意味合いです。
今回は行政デジタル化に向けて「コード」を整理したいと思います。
自分の勉強的な側面があるので、基本項目長めです。
自治体は全国で1,700以上あるといわれており、総務省が割り振った「都道府県コード」や「市町村コード」というものが存在します。
これらの総称を「全国地方公共団体コード」と呼んだりもするようです。
より詳細は総務省のHPで学べます。
当然、市町村合併があればコードの対応表が更新されるので、例えば全国公共団体コードをキーにして、住民基本台帳の市町村別データを長期で引っ張ってくる場合等は、その時々のコード体系をきちんと把握しておかないとうまくデータが取得できなかったりします。
コードの体系
ここでは、新潟県妙高市と茨城県つくば市、高知県高知市を例にします。
新潟県妙高市 :152170
茨城県つくば市:082201
高知県高知市 :392014
コード体系は見ての通り6桁で構成されますが、頭2桁は都道府県コード(例:新潟県=15、茨城県=08、高知県=39です)、最後の1桁はいわゆるチェックデジットと呼ばれるものですね。
チェックデジットの計算方法は明記されていませんが、1~5桁の数字から一定の計算式を基に6桁目の数字が決まります。
チェックデジットって?という内容については割愛します(ネットで検索すればたくさん出てきます)が、ざっくり理解したい場合は、単純な連番ではなくコードの正しさを検証するために計算で決められている末尾の数字くらいの解釈でよいかと思います。
※チェックデジットは、スーパーとかで売っている商品についているバーコード・JANコード等でも用いられている一般的な検証方法です。
妙高市でいうところの下一桁「0」、つくば市の「1」、高知市は「4」がチェックデジットになります。
どこで使われているのか?
例えば国勢調査結果から調査自治体の人口データを取得しようとします。
取得自体はe-Statと呼ばれる政府統計の開示システムで誰でも取得可能。
下図は国勢調査の結果ですが、妙高市のコード(下一桁除く)が使われています。
まとめ
単体でEXCELから対象自治体を抽出するだけであれば、特にコードがなくても名称検索もできますが、自動化やデータ活用を今後行う上ではコード体系は重要なので今更ながら整理してみました。