PythonでWebページの取得 (01)

WebページのHTMLファイルを取得して、XPathによりスクレイピングしてみましょう

sudo pip install lxml
や
sudo pip3 install lxml

を行って lxml をインストールしてください。

以下のようなソースコード(01.py)を作って実行します。

import requests
from lxml import html

url = "https://www.google.com/"
r = requests.get(url)
#print(r.text)
ht = html.fromstring(r.text)

contents = ht.xpath("/html/head/title")
for a_content in contents:
   print(a_content.text)

実行方法

python3 01.py

実行結果

Google


いいなと思ったら応援しよう!