見出し画像

【python学習日記③】

前置きが長くなっておりますが、早速勉強したことをアウトプットしていきます。

スクレイピングの順序

1.RequestsでHTMLを取得する
まずは、Requestsライブラリを使って、WebページのHTMLを取得していきます。urllibというライブラリでもHTMLは取得できますが、今回はRequestsを使っていきます。

2.取得したHTMLを解析する
Requestsで取得したHTMLは文字型(String)で表記されます。つまり、マークアップされていない状態です。そのため、BeautifulSoupを用いて、HTMLを理解するための解析を行います。

解析をすることで、どのタグの情報が欲しいかを選ぶことができるようになります。

3.自分が欲しい情報を取得する

ここまで来たら、欲しい情報をHTMLの構造から取得します。取得する際には開発者ツール(ディベロッパーツール)を使うことをおススメします。使い方は読みたいページの右クリックを押して、「検証」を押します。

WindowsではCtrl+shift+Iで開くことができます。

以上がスクレイピングの手順です。今回は、Anacondaを用いて練習していきます。

この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?