見出し画像

全国高等学校便覧 pythonによるデータ整形

初めまして、junjunjunです。

高校や学科ごとの就職者数や卒業者数のデータを分析の中で扱いたいと思って、調べているとこの『全国高等学校便覧』に辿り着きました。

データをのぞいてみると、、、

北海道のファイルを開いた画面

パッと見た感じかなり詳細な情報があるなあと感じました。
(例:学科ごとの男女別の卒業者、県内就職者数、県外就職者数など)

これは面白そうなデータだし、分析に使ってみよう!!!

いやでも待てよ、
これ印刷形式やないかい、、、と。
まあ、エクセルファイルやしすぐ直せるだろうと思いデータをいじり始めました。

すると、まあぁぁぁ汚いことか。
そもそも一つのセルに郵便番号と電話番号入ってるし、セルの結合当たり前のようにされてるし、都道府県ごとに入力方法が違うし、学校名が複数行に分かれているし、単純に誤字があるし、、、

全国のファイルから一つの構造化された一つのcsvファイルを作るまでに、数えきれないエラーと戦いましたが、宮崎県だけはうまくできず、整形後も電話番号や郵便番号でおかしな箇所があるので手で直して欲しいです。他にもあるかも、、、

ですが!全国47都道府県約11,000校についてなんとか構造化されたデータが取得できました。

下にコードを置いておきます。
動かすには、上位リポジトリにdataというフォルダを作って都道府県ごとのファイルを格納してください。ファイル名例:h01.xlsx

かなり色々説明つけてるので、汚い感じにはなっています。笑
また、宮崎県だけはうまくできず、整形後も電話番号や郵便番号でおかしな箇所があるので手で直して欲しいです。他にもあるかも、、、

最後まで見ていただきありがとうございました。
もし、参考にしていただけたら幸いです。
また、需要も知りたいのでいいねしていただけたら嬉しいです!

いじょぉぉぉうぅぅぅ!!!!



いいなと思ったら応援しよう!