data:image/s3,"s3://crabby-images/7cc9b/7cc9b33617304ead0ddeb5e354974971c14fd8d8" alt="見出し画像"
Webスクレイピング勉強③~BeautifulSoup~
引き続き
1.BeautifulSoupでWEBページを読み込む
requestsとbeautifulsoup4をインストール
data:image/s3,"s3://crabby-images/a58a7/a58a79314cbabed96d59f2d061e97eb7941a5dc7" alt=""
URLを指定し、そのページ情報を取得する
import requests
from bs4 import BeautifulSoup
url = 'https://scraping-for-beginner.herokuapp.com/udemy'
res = requests.get(url)
res.text
現状は単なる文字列
data:image/s3,"s3://crabby-images/90c23/90c23789db7a37dd32cfe58fb8ead779d1bf5aec" alt=""
BeautifulSoupでHTMLとして読み込ませる
soup = BeautifulSoup(res.text, 'html.parser')
soup
綺麗な形になった
data:image/s3,"s3://crabby-images/ea8c4/ea8c4a209a8f26a271fc2d6a4361adf12d7ca8c6" alt=""
下記関数でインデントも込みで解析してくれる
print(soup.prettify())
data:image/s3,"s3://crabby-images/90e70/90e70eac13423b3f39ea6e7fb5e94d5ecaaee205" alt=""
2.ページ内の特定の要素を取得する
ページ内の「受講生の数」を取得したい。→<p>タグかつclass="subscribers"
data:image/s3,"s3://crabby-images/d0ab3/d0ab3ec1c3759b0a08e167080a592db29a741b00" alt=""
まずは該当のタグを取得
読み込んだHTML内の全pタグを取得
soup.find_all('p')
リスト形式で取得される
data:image/s3,"s3://crabby-images/3fe52/3fe52994d4662cc4e00ca793e0f16bf351a96009" alt=""
下記の指定をすることで、取得した全pタグのうち、classが指定した名前(ここではsubscribers)の要素だけを抽出できる。
subscribers = soup.find_all('p', attrs={'class':'subscribers'})
取得できた
data:image/s3,"s3://crabby-images/68c6d/68c6d83b8f840bc5a48c9f1e73cf8e090d65060b" alt=""
取得した要素のtextを取得することで、値を取得できる
data:image/s3,"s3://crabby-images/2d939/2d939212ed09e393b0bd29f14c7730b653b03bc7" alt=""
取得した文字列のうち、数値を抽出する
取得した文字列を分割して、int形に変換
subscribers[0].text.split(':') #:でテキストを分割
subscribers[0].text.split(':')[1] #分割した2つのうち2つ目を表示
int(subscribers[0].text.split(':')[1]) #int型に変換
同様にレビューの数も取得する
data:image/s3,"s3://crabby-images/d44f4/d44f42c1379c153060d38e506ee9b2136f556883" alt=""
同じ要領で取得完了
data:image/s3,"s3://crabby-images/b1f51/b1f51bc2c78779c803d7cd7c3fcad9d49510cfa6" alt=""
CSSセレクタによる取得
find_allではなくsoupのselect関数でクラス名を指定することでも取得は可能
soup.select_one('.subscribers').text
data:image/s3,"s3://crabby-images/f4d1a/f4d1a80062b765a2ca6d0b29029775eb8f23dee3" alt=""
以上。勉強になりました。