
No313 名寄せという闇
このところ、マイナンバー関連で保険証に別人の情報が含まれていたといった事故が多発しています。
この是非については論じようというつもりはありません。(筆者には荷が重すぎます)
ですが、こういった間違いが起きるのは単に作業者のミスや手抜きだけで起きるものではありません。
二つの出自の違った情報をつないで一つにまとめることを「名寄せ」と呼びます。
今回はこの名寄せの難しさについて解説をします。
1. 名寄せ
上述の通り、「名寄せ」というのは二つの出自の違ったデータベースを一つにまとめることを言います。
それぞれに理由があって個別管理していた情報をまとめる時には常にこの名寄せという作業が必要になります。
一見、どうということのない単純作業に見える名寄せですが、実に難しい作業となります。
その難しさのうち、いくつかを列挙します。
1)同姓同名の方がいる
2)複数の名前を持つ人がいる
3)複数の性別を持つ人がいる
4)住所が誤登録されるケースがある
5)誕生日が不明瞭な人がいる
最初の同姓同名はどなたでも想像が付くでしょうが、複数の名前だとか複数の性別だとか誕生日不明だとか、こんなの思いもしないですよね。
(このあたりの具体例は後述します)
こういった、名前が違っていたり、性別が違っていたり、住所が間違っている人を同一人物かどうかを認定するのが名寄せという作業です。
かなり難しいことを要求されているのがわかりますよね。
例えば、氏名は違うが住所と誕生日が同じ人がいたとします。
これは同一人物でしょうか?それとも同じ誕生日の同居人でしょうか?みたいなことになるわけです。
念のために言っておきますが、こんな特殊なデータはごくごく一部にすぎません。
筆者は大規模な名寄せ作業の経験はありませんが、データ量が数十万件を越えたあたりから、矛盾したデータや間違ったデータが目立つ印象を持っています。
ごく感覚的ですが、
70%:完全一致で名寄せ(コンピュータで実施)
20%:一部不一致で名寄せし、後に整合性確認を実施(コンピュータで実施)
7%:何らかの特殊ルールを加えて名寄せ(コンピュータで実施)、
その後、整合性確認を実施(人手を要する)
3%:人手で名寄せを行う。
ここでは人手を要するデータを3%としていますが、現場ではもっと少なくするように工夫をしていると思います。
というのは3%だと、元データが1000万件なら30万人分を手作業で処理することになります。
もともと機械的な照合ができないデータばかりなのですから、そんなにスピーディーに処理できるはずがありません。仮に30分で1件の照合ができるとすると、延べ15万時間、約2万日を要する作業になります。
いかに大変な作業かわかるかと思います。
余談:
名寄せという作業はシステム開発者にとっても憂鬱なテーマです。
その理由は主に二つ。
一つは費用の問題。
名寄せは人手(=コスト)がかかります。
ですが、お客様はそんな事情を知りませんから、見積りに腰を抜かすことになります。
それに納得いただくのはホントに大変です。
もう一つは誤登録のリスク。
これだけコストをかけても(人の作業ですから)誤登録は起きます。
誤登録を避けるには、さらにコストがかかります。
・登録後の全データをチェック
・2チームで全データを登録
2. 名前の問題
氏名を検索するとなると「同姓同名」は考えないといけないよなぁ、くらいはどなたでも気付かれると思います。
ところがですね、それ以前の問題が山盛りなのですよ。
例えば、漢字の氏名しかないデータベースとよみがな(もしくはローマ字)しかないデータベースで名寄せしようとすると、これは大変です。
これは実際に、マイナンバーと公的給付金の振込口座の名寄せで発生していました。
マイナンバー側からは漢字氏名、銀行口座側はカナ氏名しかないため、突合する時にミスが多発した(というかそもそも無理)という事例です。
また、そもそも名前が一致しないのが正しいケースもいろいろとあり得ます。
結婚・離婚などによる改姓はわかりやすい例ですが、改名も存在しています。
つまり、結婚→離婚→改名という過程を経た人は未婚時、結婚後、離婚後、改名後と時期によって4つの氏名を持っていることになります。これを追跡して、同一人物かどうかを特定するのはかなりの手間がかかります。
また、通名を日常的に使用される人もいます。
こうなると本名とは全く別ですから、ますます名寄せが難しくなります。
さらに、姓と名の区別が難しいケースもやっかいです。
平松太郎
さて、これは「ひらまつ たろう」さんでしょうか?「たいら まつたろう」さんでしょうか?さらに、この方が結婚して「大野」さんになったら?「大野松太郎」?それとも「大野太郎」?
姓が変わった時の追跡も大変ですよね。
さらに、以前にも書いた異体字というやっかいな存在があります。
これは一般的な活字とは少し違った字体のことです。
高の字の口の部分がつながった「はしご高」が有名ですよね。
(百貨店の高島屋のロゴがはしご高を使っています)
このような異体字は無限といっていいほどのバリエーションがあります。
ご興味のある方は以下のバックナンバーをご覧ください。
No214 「はしご高」という異体字 (2021年6月配信)
https://note.com/egao_it/n/nb3d9822ebc4d
そうそう。外国人の読み方の名寄せも大変。
スティーブかスチーブかスティーヴか?
これも以前は自由にカナ読みを付けられたため、ルール化は無理でした。
3. 性別の問題
性別は変わらないもの、でしょうか?
昔であれば「生まれてくるのは男に決まっている」と生まれる前から「男」で出生届を出された女性というのがありました。
当人が気付いて変更をしていればいいのですが、そのままにしていると、住民票の記載と実際の性が異なるケースがあります。
現代では、生物的には男性だが日常的に女性として過ごす人がいます。
途中で性別を変更(性同一性障害などで)される人もいます。
こう考えると性別情報なんて全く信頼できない情報といえます。
名寄せにおいては参考情報にすらならない情報になってしまっているのです。
4. 住所の問題
都市部に住んでいると住所の識別ができないなんて考えにくいのですが、これもまた闇の深い領域です。
行政にとっても、特定の場所に正しい地番を割り当てるのは大切な仕事ですが、今に至るまで様々な試みを行ってきたわけです。
その歴史の苦悶がそのまま残っている住所もたくさんあります。
ところが、そのようないきさつを知らずに「住所を一つの書き方にまとめられないようなシステム屋はやめちまえ」みたいなことを言う方がおられます。
ですが、世の中には不思議な地名がたくさんあります。
いくつか例を挙げておきます。
静岡県下田市2丁目-4-16 :市の後にいきなり丁目!
奈良県御所市1番置の3 :それどころか丁目すらない!
東京都青ヶ島村無番地 :それどころか番地がないと自己主張!
埼玉県春日部市八丁目353番地1 :八丁目は地名の一部なので漢字。七丁目はない!
大阪府大阪市中央区上町A :住所にアルファベット!
長野県長野市南長野県町 :最後は「みなみながの あがたちょう」と読む
石川県金沢市利屋町は
石川県金沢市利屋町ハ :この2つは違う住所
千葉県香取市佐原ロ2127:「さはらぐち」ではなく「さはら ろ(カタカナ)」
※inuroさんの「とにかく日本の住所のヤバさをもっと知るべきだと思います」 から引用。
URLは https://note.com/inuro/n/n7ec7cf15cf9c
こうなると、もはや正しく住所を記載できる人がどれだけいるのだろうか?という話になります。要は人によって解釈が違ってしまう可能性のある住所を寄り処にして名寄せすることはできないということです。
5. 生年月日の問題
ここまで読まれた方は、もう多少のことでは驚かれないと思います。
ですが、生年月日の問題はそれでも驚きますよ。
常識的に考えれば、生年月日は必ず3つ(年、月、日)の数値で表現できると考えます。
ところが、住民票の上ではそれ以外の形式がいろいろと認められているのです。
要は年月日という数値でない形式がある、ということです。
・令和5年2月29日(令和5年に2月29日は存在しない)
・年月日不詳
・令和○年頃
・令和○年春
・令和○年○月頃
・令和○年○月 日不詳
・令和○年○月上旬
これで名寄せするのは難題です。ある程度はコンピュータ化できますが、正確にとなるとどこまで信頼できるのか不安が残ります。
6. まとめ
マイナンバーと健康保険を連動させるにあたり、誤登録の事故が起きています。
この中には担当者の不注意もあったのかもしれませんが、大半は「何が正しいかわからない」状況でこれがベターと思ったものがハズれていたというものでしょう。
マイナンバー側からは基本4情報と呼ばれる情報が提供されます。
・氏名(漢字)
・性別
・住所
・生年月日
常識的にはこの4つがあれば、手元のデータベースとの照合はできそうに見えます。
実際、大半の方は基本4情報で照合が行えるはずです。
ですが、名前の場合は改姓や改名があり、性別は一致しているとは限らず、住所はそもそも正しく入力されている保証が難しく、生年月日も不明な場合がある、というのが現実です。
これだけの不確定要素があるのです。保険組合が数千件の誤登録というのは(ホントの誤入力もあるでしょうが)かなり健闘していると筆者は思います。
もっとも、これはシステム開発者の視点ですので、かなり「身内びいき」バイアスがかかっているのは事実ですが。
また、複数のマイナンバーが同じ銀行口座を指すものが10万件以上あるという事件もありましたが、これは本人口座以外を指定しちゃいけないというルールが十分に周知されていない結果のようです。ルールの周知不足は行政側の課題ですが、ルールに従わないのもどうかと思います。
今回のメルマガをご一読いただければ、名寄せという行為がそれほど簡単なものではないということはご理解いただけるかと思います。
今回は名寄せの難しさについて解説しました。
次回もお楽しみに。
(本稿は 2023年6月に作成しました)
このNoteは筆者が主宰するメルマガ「がんばりすぎないセキュリティ」からの転載です。
誰もが気になるセキュリティに関連するトピックを毎週月曜日の早朝に配信しています。
無料ですので、是非ご登録ください。
https://www.mag2.com/m/0001678731.html