法人番号の取得ライブラリを作りました
日本の法人リストが作りたかったので、国税庁法人番号公表サイトから、全国もしくは特定都道府県を引数にデータを取得するライブラリを作成しました。
公官庁や数多くの法人情報サイトが、国内法人の情報提供を行っていますが、どこのサイトを見ても情報が不完全というか、ただ手の届く情報を集約して羅列しただけで、私のやりたい分析をする上では不完全だった、というのが今回のライブラリ作成のキッカケとなっています。
今回リリースしたバージョンでは、単純に国税庁法人番号公表サイトにあるZIPファイルをダウンロードして解凍、CSVファイルをList of Dict形式の変数として返すのみです。
最終的に利用者が、DBにInsertするのか、ElasticsearchにPostするのか、Dataframe化して分析するのか不明瞭なので、データ量は嵩張りますが、標準的なPythonでハンドリングしやすい形でアウトプットするようにしてあります。
当初の想定では、初期バージョン・リリース時点でジオコーディングした結果を返す仕組みとしたかったのですが、日本語住所からの座標化はハードルが高かったため、見送ることとしました。
また企業情報の取得も目論んでいましたが、ここもウェブ上の情報との紐づけが難しく、一旦棚上げとした状態でのリリースです。
ここまでやってみて、日本における企業情報は、おそらく様々な場所に公開されているのですが、確実に結びつけるための仕組みが少なく、非構造化データや不完全な構造化データが多いため、相互のデータを結びつけたエンリッチメントは、どうしても人力に頼らざるを得ない部分が多そうです(そういった要素が帝国データバンクを始めとした企業情報サイトの価値になっているように思います)。
当初、本ライブラリの開発は、情報のエンリッチを進める方向で考えておりましたが、まずは情報のクレンジングが必要であるという結論に至ったため、重点的にデータクレンジング機能を追加していこうと思います。
この記事が気に入ったらサポートをしてみませんか?