見出し画像

BeautifulSoup decomposeで不要な要素を削除

欲しいデータがあって、スクレイピングしているんですが、文字列を抽出する際にspanタグ内にある文字が邪魔でいらいらしていました。

こうゆう時には、decomposeメソッドを使用します。

decomposeメソッドを使えば指定したタグを削除できます。

気を付けるべきなのは、decomposeメソッドはインスタンスそのものを削除します

こんな感じで使います。

target = soup.select_one('h1')
target.select_one('span').decompose()

これで不要なタグがあった場合でも問題なく文字列が抽出できますね。

いいなと思ったら応援しよう!