非エンジニアでもできるWebスクレイピング入門 説明と目次
説明
本書ではターゲットを Web スクレイピング初心者としています。
非エンジニアの方でも扱えるような、一般の事務や生活で生かしてもらえるようなものになればと思っています。
スクレイピングとは、一般的に Web ページから情報を抽出する作業を指し、たどった Web ページのデータを取得する部分がスクレイピングということになります。
スクレイピングは scrape、つまり「削る」、「こすり落とす」という意味からだそうで、Web ページのデータを削り取るイメージで考えると良いと思います。
なお、本書ではクローリングはほとんど取り扱わず、スクレイピン グ部分に特化して解説していきます。クローリングをやろうと思うと、基本的にプログラミングを避けることはできず、またその難易度も高くなりがちであるためです。
また、どうしてもHTMLの基礎知識は必要となります。すべての説明は本書では行いませんが、頻繁に使用する知識のみの説明を記してあります。
本書がみなさまの楽しいスクレイピング・ライフの一助となれば幸いです。
目次
第1章 はじめに
1.1本書の特徴
1.2クローリングとスクレイピング
第2章 スクレイピングのお作法
2.1サイト利用規約を確認する
2.2サーバーに過剰な負荷をかけない
2.3 robots.txtの取り扱い
第3章 スクレイピング技術の基礎知識
3.1HTMLの基礎知識
第4章 Google Spreadsheet でスクレイピング
4.1 IMPORTHTML 関数で Web 上の表データを読み込む
4.2 IMPORTXML 関数で Web 上の特定データを読み込む
4.3 まとめ
第5章 Automator でスクレイピング (macOS 限定)
5.1 Automator で Web ページ上の画像をダウンロード
5.2 Automator でリンクされている画像をダウンロード
5.3 まとめ
第6章 Selenium でスクレイピング
6.1 実行環境
6.2 実行環境の整備
6.3 Webブラウザの初期設定手順
6.4 PythonからWebブラウザを制御する
6.5 HTMLソースの取得
6.6 HTMLソースの解析
6.7 まとめ
この記事が気に入ったらサポートをしてみませんか?