レッツゴースクレイピング
スクレイビングかと思ってたらスクレイピングだった。
これを参考。
取得対象はこのサイト
htmlから情報を抽出するときは、XPathを指定して抽出する。要するにほしい情報が入ったhtmlのパスを指定すればいいよう。
ほしい部分の情報はChromeのデベロッパーツールを使ってページのソースをみて、右クリック→XPathのコピーで取得した。ネストしててほしい部分を探すのが少し大変だった。きっとうまい探し方があるのだらう。
こんだけのコードで、
import urllib.request
import lxml.html
url = "https://aws.amazon.com/jp/aws-jp-faq/#top-five"
html = urllib.request.urlopen(url).read()
tree = lxml.html.fromstring(html)
result = tree.xpath('//*[@id="aws-page-content"]/div/div/main/section/div[3]/div[2]/div/div/div/div/div[1]/div/div/div/div/div[2]/div/p[1]/b')
for elem in result:
print (elem.text)
あっさりとれた
Q. 自動音声電話によるアカウント認証 (電話認証)に失敗したのですが、どうしたら良いですか?
この記事が気に入ったらサポートをしてみませんか?