【Python】クローリングとスクレイピング
お久しぶりです。
何の記事を書こうか考えてたら1週間以上経過していました。。。
毎日note更新されている方はほんと凄すぎです!!
そんな私はマイペースにのらりくらりとやっていこうと思います。。
ということで今日は(今日から?)、
最近流行りのスクレイピングについて書いていこうかなと!
この分野は間違いなく伸びる分野だと思うので、やっておいて損はないかも
自分もちょうど勉強中なので学んだことをアウトプットするいい機会ですです。
まずは、言葉の意味がなんぞやというところから始まると思うので、
クローリング(Crawling)
Webページのハイパーリンクをたどって次々にWebページをダウンロードする作業
スクレイピング(Scraping)
ダウンロードしたWebページから必要な情報を抜き出す作業
だそうです(他人事)
Webページって単純に人間がブラウザで見るだけのものじゃなくて、ロボットが日夜Webページの情報を収集しているんですよね。
ちなみに、SEO対策っていう、Googleの検索結果で上位に表示するための施策があるんですけど、あれも、Googleが用意したロボットがページ上をパトロールしてWebページを評価しているんですよね。
こういう、Webページ上の情報を取得するためのプログラムをWebクローラーとか、単にクローラーって言ったりします。
クローラーがゲットしてきた情報を切り抜く(スクラップ)するから、スクレイピングって言うんですね(なるほど)
で、クローリング・スクレイピングによくPythonが用いられるんですけど、その理由は主に3つ
① 言語そのものの特性
読みやすく、書きやすい言語
② 強力なサードパーティ(外部)ライブラリの存在
PyPl(Python Package Index):「パイピーアイ」
→豊富なライブラリを管理している場所
※ライブラリは超ざっくり言うと、その名の通り図書館みたいにいろん
な知識が詰まっているところで、いろんな機能を呼び出して使えるよ
③ スクレイピング後の処理との親和性
データ取得後のデータの整形や分析などの処理をおこなう優秀なライブラリがPythonに備わっている
要は、Pythonだとコードが書きやすいし、いろんな機能備わっているから便利だよね!といったところですかね(雑すぎ笑)
あと、PyPIって「パイパイ」かと思った笑
ITは用語が難しい・・・
今後は実際にスクレイピングの実装方法とかも記載していきたいと思います👍
この記事が気に入ったらサポートをしてみませんか?