見出し画像

BeautifulSoupを使って『吾輩は猫である』を読み込む

DataCamp Intermediate Importing Data in Pythonコースを受講中です。

いよいよwebのデータを読み込むことができます!

Jupyter notebookで実行しても、同じ結果が得られます!

画像1


青空文庫の『吾輩は猫である』を読み込みました。

画像2

文字化け!!

BeautifulSoupの文字化けが止まらない時の解消方法 – Python

を参考にして、5行目のr.textをr.contentに変更すると

画像3

文字化けが直りました!

画像4

textはstr型(文字列)ですね。

吾輩を私に置換してみました。replaceは元の文字列は書き換えないので、新しい変数text2を用意しました。

画像5

これで読みやすくなるかな?

また、文中で「吾輩」は何回出てくるかも簡単に出ます。

画像6

483回だそうです!多い!

いいなと思ったら応援しよう!