Python童貞卒業とは言えないかも3/5
③・大先生が書いてくれたコード
大先生がこれを貼り付けて実行したまえ。とおっしゃったコードを貼り付けても何にも起こりません。
先生、何も起こりませんが?と聞くと
当り前じゃ。どこを探したいのかハッキリ申せ。申せぬならば探しようがあるまい。と答えられる。
コードをよく見ると、ここにURLを記入とか書いてあるし。ネットサーフィンって言い方アレだけど、自分で探してこなきゃダメ?それがスクレイピング?自動で探すんじゃないの?
状況をまとめるために大先生に質問してみる。
先生、スクレイピングとは無限に広がるインターネットの中から、私が欲しい情報を自動で選び並べてくれる便利な魔法ではないのですか?と。
すると大先生は、バカ者。そんな魔法があるものか。とお答えになる。
では先生。まとめると、自力で情報が集まっているサイトを探し出し、そのサイトから情報を抜き出すのがスクレイピングですか?と聞くと、
HTMLのつくりが複雑だとうまく引き出せぬから、シンプルな作りの方がおススメ。それとURLの作り名がランダム的な作りだと、すさまじい総当たり攻撃が必要になるから、わかりやすいURLにしている事も重要。そんなことを教えてもらえた。
私が欲しい情報については、いくつかの情報集積サイトが存在している訳です。民間がやっているものから行政がやっているものまで。
それらのほとんどは、事業所名が20個くらい並んでいて、上部には進む、戻るボタンがあり、20事業所くらいずつ事業所名が表示される。その事業所の名前をクリックすると、その事業所の情報が表示される。
その中で厚労省のサイトは結果的に事業所番号がURLに組み込まれており、これならばどうにかなるんじゃないか?と思い大先生に相談。
お前のような素人がわかりやすいと感じるURLならば、それはわかりやすいって事やな。的なお答えをいただく。
次回はURLのつくりの伝え方で困ったあたりをお話ししやす。
この記事が気に入ったらサポートをしてみませんか?