PythonでWebページの取得 (01)
WebページのHTMLファイルを取得して、XPathによりスクレイピングしてみましょう
sudo pip install lxml
や
sudo pip3 install lxml
を行って lxml をインストールしてください。
以下のようなソースコード(01.py)を作って実行します。
import requests
from lxml import html
url = "https://www.google.com/"
r = requests.get(url)
#print(r.text)
ht = html.fromstring(r.text)
contents = ht.xpath("/html/head/title")
for a_content in contents:
print(a_content.text)
実行方法
python3 01.py
実行結果