見出し画像

わからなくなってきたかも・・・・

今日は、外部データから
import requests from bs4 import BeautifulSoup URL = "https://eiga.com/ranking/" headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'} data = requests.get(URL, headers=headers) soup = BeautifulSoup(data.text, 'html.parser')


import requests
from bs4 import BeautifulSoup

URL = "https://eiga.com/ranking/"
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get(URL, headers=headers)
soup = BeautifulSoup(data.text, 'html.parser')

title = soup.select_one('#document_16l5w5x > main > div > div > section:nth-child(4) > table > tbody > tr:nth-child(1) > td:nth-child(3) > div > h2 > a')

print(title)

映画のタイトルだけを取り出す、という指示。
実行されると
*******************************************
トップ\Sparta\pythonprac\hello.py
<a href="/movie/98968/">アナログ</a>
プロセスは終了コード 0 で終了しました

*******************************************
って出る。で、ここからタイトルのテキストだけを表示させたいので、
print(title)を
print(title.text)
とする。

import requests
from bs4 import BeautifulSoup

URL = "https://eiga.com/ranking/"
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get(URL, headers=headers)
soup = BeautifulSoup(data.text, 'html.parser')

movies = soup.select('#document_16l5w5x > main > div > div > section:nth-child(4) > table > tbody > tr')

for movie in movies:
    title = movie.select_one('h2 > a').text
    print(title)

あーわからなくなってきたーーーーーーーーー
わーーーーーーーーーーーー

だめだ、後半がわからない。タグをしぼりこんでるところが全然わからん。
何?チャイルド?わなんないー。

ただ、くりかえしのfor in のセットはわかった。


いいなと思ったら応援しよう!