
マイナンバー名寄せ問題
感度が低かったとか、いつ知ったとか そんな問題はしりませんが、マイナンバーやデジタル庁が100%悪いとは思っておりません。
ぷちデータ分析屋として、
日本のデータが活用以前に絶望的(ヨゴレ状態)であり、総クレンジングしなければならないことについて、以前まとめた資料を貼ります
・ 文字種多く、本人(当事者)も正しい情報を知らない場合すらある ⇒ もはや他人には正しさを判別できない
・ 後方互換性を過度に保つ思想で、表記方法が増える一方 ⇒ 照合パターンが等比級数的に増える
・ 「自由は正義」の捉えちがい ⇒ ヨゴレ放題
※ 民間データには、住所でマンション名を省略されて、1-2-3-405 とか欠損情報もある
名寄せ・データクレンジングで負担がかかってしまう状況は、データ活用以前にデータサイエンティストを疲弊させている
⇒ 名寄せのための(個人情報保護環境で)公開APIを開発提供すべき
⇒ 住所の表記は法的に統一にすべき、それに合わせたバリデーションチェックのAPIも開発提供すべき


こんなヨゴレデータを性善説で後から名寄せしようにも、AIの活用なんて魔法信じるか、エイヤーの活用という人的作業を強いるかになりますよ。。。