レッツゴースクレイピング

2020年5月28日 02:11

スクレイビングかと思ってたらスクレイピングだった。

これを参考。

取得対象はこのサイト

htmlから情報を抽出するときは、XPathを指定して抽出する。要するにほしい情報が入ったhtmlのパスを指定すればいいよう。

ほしい部分の情報はChromeのデベロッパーツールを使ってページのソースをみて、右クリック→XPathのコピーで取得した。ネストしててほしい部分を探すのが少し大変だった。きっとうまい探し方があるのだらう。

こんだけのコードで、

import urllib.request
import lxml.html

url = "https://aws.amazon.com/jp/aws-jp-faq/#top-five"
html = urllib.request.urlopen(url).read()
tree = lxml.html.fromstring(html)
result = tree.xpath('//*[@id="aws-page-content"]/div/div/main/section/div[3]/div[2]/div/div/div/div/div[1]/div/div/div/div/div[2]/div/p[1]/b')
for elem in result:
   print (elem.text)

あっさりとれた

Q. 自動音声電話によるアカウント認証 （電話認証）に失敗したのですが、どうしたら良いですか？

この記事が気に入ったらサポートをしてみませんか？