
国税庁 法人番号公表サイトの分析
国税庁が公表している法人番号公表サイトでは、日本の法人 5,467,443社(4月30日現在)に関する法人番号、法人名やフリガナ、英語社名、住所、英語住所などを提供しています。
法人名や住所に関するデータセットとしては非常に規模が大きく、自然言語処理の題材として面白いので、今回は、これらデータの内容を確認していきたいと思います。
サンプルデータ
今回の分析対象となるデータのサンプルは下記のとおりです。意図的に自然言語処理の対象となる変数で、かつ、欠損値(NaN)が無いレコードをランダム・サンプリングしました。データセット全体の項目に関する説明は、基本3情報ダウンロード > ダウンロードファイルのデータ定義を参照ください。
name, kind, prefectureName, cityName, streetNumber, postCode, enName, enPrefectureName, enCityName, furigana
宇都宮家庭裁判所, 101, 栃木県, 宇都宮市, 小幡1丁目1-38, 3200036, Utsunomiya Family Court, Tochigi, "1-1-38, Obata, Utsunomiya shi", ウツノミヤカテイサイバンショ
奥海印寺財産区, 201, 京都府, 長岡京市, 開田1丁目1番1号, 6170826, Okukaiinji Property Ward, Kyoto, "1-1-1 Kaiden, Nagaokakyo City", オクカイインジザイサンク
株式会社日本理化シェアードソリューションズ, 301, 東京都, 品川区, 大井1丁目20番6号, 1400014, "Nippon Rika Shared Solutions Co., Ltd.", Tokyo, "20-6 Ohi 1-chome, Shinagawa ku", ニホンリカシェアードソリューションズ
株式会社Xiberlinc, 301, 東京都, 墨田区, 横川1丁目16番3号横川倉庫センターオブガレージ, 1300003, Xiberlinc Inc., Tokyo, "Yokokawa Soko Center of Garage, 1-16-3 Yokokawa, Sumida City", ザイバーリンク
明成通信株式会社, 301, 東京都, 調布市, 布田4丁目20番地2, 1820024, "Meisei Correspondence Co., LTD.", Tokyo, "NK Building 301, 4-20-2 Fuda, Chofu shi", メイセイツウシン
国の機関、地方公共団体、株式会社など、様々な法人のデータが並んでいます。上からデータを眺める限り、国の機関や地方公共団体は、英語住所もしっかり登録されているように見えますが、果たして、この辺の認識が正しいのか、今回はデータの傾向を見ていきたいと思います。
基礎統計量
レコード全体が 5,467,443 件で、法人名(name)と法人種別(kind)は、すべて値が入っていることがわかります。
法人名(name):英語法人名(enName)は12,892件(0.2%)しか登録されておらず、フリガナ(furigana)は、2,926,632件(53.5%)と比較的登録されています。
住所(streetNumber):都道府県と市区町村、およびそれ以降の住所については、その品質は別にして、ほとんど登録されているようです。一方で、英語の住所(enPrefectureName, enCityName)については、12,572件(0.2%)と、英語法人名同様にほとんど登録されていないようです。

法人格別の充足状況
英語法人名
英語名の法人名については、上記で書いた通り、国の機関や地方自治体での充足率は100%に近いが、そのほかの法人格では壊滅的な状態になっていることが分かる。
英語法人名は、海外ビジネスをしている場合でもローマ字表記を使っている場合もあり、この項目を自然言語処理等を使って改善するのは難しそうです。

法人名フリガナ
フリガナについても、地方公共団体(Local Government)と国の機関(National Agency)についてはフリガナの付与率100%となっています。有限会社(Y.K.)および株式会社(K.K.)で多くのフリガナが欠損しているようで、この辺の補正が必要なようです。
漢字で記載された文字列のカタカナ化はpyKakasiで変換ができるようなので、後続のプロジェクトで改善を試みてみようと思います。

住所
住所の詳細は分かりませんが、充足率だけで見れば海外の法人を除いて、すべてのレコードに値が入っています。
住所についてはハイフン表記と丁目表記が混在しているので、こちらも後ほど標準化を図っていきたいと思います。

英語住所
英語法人名同様に、国の機関と地方公共団体の充足率は非常に高いが、そのほかの法人格における充足率は、ほぼゼロという結果となりました。
日本郵便が作成している日本語住所とローマ字住所の対比表、および、pykakasi を使った英語化を考えていきたいと思います。

まとめ
今回は、法人番号公表サイトのデータの内容を確認してみました。大規模なデータセットで非常に面白いものですが、一方で、欠損している値も多く、データセットとして使う上で課題があることも分かってきました。
今後、これらデータセットの欠損値の補完、クレンジングを行っていきたいと思います。