見出し画像

3. 土木遺産データ整形してみます

まず、身近なところで京都府のデータをサンプルにやってみます。
WEBのデータはこんな見た目です。

出典:https://kinsei-izen.com/area_data/26_Kyoto.html

上段に市町村名(京都はややこしいことに京都市〇〇区が存在します)、
その下段に都道府県名を挟んで
最後に土木遺産のデータが入っています。

■WEBデータをどうやって取り込むか?

①WEBキャプチャでいけるか?
②PDFは?
③やっぱりエクセルに張り付けか・・・

①②はダメ元でやってみます。
まず、①WEBキャプチャどーん!

単純にWEBキャプチャした状態

京都府だけでえらいことになってしまいました。

①WEBキャプチャ(jpeg)をPrepに突っ込んだところ

さすがにモニョモニョです。こんなの初めて見ました。。。
Prepさんごめんなさい。。。

②PDFをPrepに突っ込んだところ

PDFも同じく。範囲の指定をやり直してみたりしましたが駄目でした。
Desktopでもやってみましたが、見たことのないエラーが・・・

②PDFをDesktopに突っ込んだところ

で、大人しく③エクセルに張り付けで真面目にチャレンジします。

■WEBデータをエクセルに張り付けて取り込む

WEBページの範囲を全選択して、エクセルシートに貼ってみます。
もっと賢いやり方がありそうですが・・・

全コピペの状態

上段は削除して、都道府県名以下のデータの形にして読んでみます。

③エクセルをPrepに突っ込んだところ

上段に都道府県名も残したままなので(後でデータが確認しやすいのでそのままに)
まま、こうなるかな~とは思っていました。
ここでデータインタプリターマジック(もはや魔法だと思っています)!

データインタプリターマジック!

大体読めている感じです。
ここで、元データ×エクセルの不安材料を再確認していきます。

①1レコードが2段になっているケースがある
②空欄の行が多数存在する
③価値評価欄に画像(赤丸にA)が存在する

①1レコード×エクセル2段使い
②空欄の行
③画像の埋め込み
クリーニングステップで中身を確認

どうやら②は問題なさそうです(データ行とデータフィールドを確認)。
①はやはり2行になってしまっている様子。。。

レコードが2行になっている

③はNULLになっているようです。

データがNULLになっている

というところで、今日はこの辺で。
①③解決できるでしょうか・・・

いいなと思ったら応援しよう!