ぺろりんのブログ
あまりnoteで書くことではないけれども、アメブロの記事をスクレイピングしてコメントを収集した。
始めた理由
なぜこんなことを始めたのかというと、ここ最近の業務がDX(デジタルトランスフォーメーション)関係で本格的にプログラミングを始めたことがきっかけだ。
普段の仕事では使わないけれども自然言語処理の分野に興味があって機械学習の本とか読んでいると、毎日更新されるぺろりんのブログ
これがもう宝の山にしか見えない。
とはいえ、Pythonは始めたばかりの初心者でプログラミングのスキルは高くない。
けれども、ぺろりんのブログを解析するという目標があれば頑張れる。
ぺろりんもブログ頑張ってるし、ファンが増えている様子が解析結果で出せたらいいなぁ。そんな思いで始めたのが2022年の8月ごろだった。
データ収集について
参考にした本は
・退屈なことはPythonにやらせよう/オライリージャパン:
正規表現やCSVの書き込みなど
・PythonによるWebスクレイピング/オライリージャパン:
Web Scraping全般
・Python最速データ収集術/技術評論社:
Web Scraping全般
最初はブログ記事本文の取得から始めた。割とうまくいった。画像収集もできそうだ。
しかし、ブログのコメントとなると思うようにいかないことが分かった。
そうして、Webサイトの仕組みやWeb Scrapingというトピックを掘り下げて勉強するようになった。
いろいろと試行錯誤していく中でわかったこと
・コメント欄やハッシュタグはJavaScriptで動的に生成されるため、ブラウザを使ってスクレイピングするというテクニックが必要なこと
・コメント欄を出現させるためにはブラウザをスクロールして下まで移動しなければならないということ
・一部の記事では変なUnicodeが使われていて読み込めない記事があること
サイトを調べれば解決できる内容も、どのサイトにも載っていない内容もあって頑張ればアメブロ解析用の記事を作れるくらいには踏み込めた気がしている。
一番苦労した記事:
ChromeだとPageのSourceを読み込めず、結局Edgeで対応した。
utf-16関係のエラーが出る。
この記事に一番アクセスしたのは自分だと確信している。
雪の日:2022-02-10 22:46:55
https://ameblo.jp/pero0921/entry-12726115906.html
データを収集して思ったこと
そんなこんなで収集用のプログラムを完成させて、集計をしてみると意外な結果になった。
特に思ったのは、ブログのコメント数はおおむね同じような数だけれども、コメントしているヲタクは毎回同じというわけではなく代わる代わるコメントしている。
個人的には同じ人が毎回コメントしているものだと思っていたけど、そうではなくて、それぞれ関心があることにコメントしているようだ。
(もちろん、毎回コメントしている素晴らしい方もいる)
ライブがあったとき、日常を描いているとき、心情を吐露しているとき、出掛け方とき、趣味に関する話題のときなどなど、ひとぞれぞれコメントしたくなる記事があって、それに刺さるときにコメントをしているのではないか。
そう考えるとこうして毎日ブログを投稿して、いろいろな話題を出すことで、ここ最近の傾向でもあるように、いろんな方面からファンがついてくるようになるのかなぁ。改めて継続は力なりという言葉を思い知った。
データの持つ意味について
データ解析をしていく中で好きな言葉がある
"Data are just summaries of thousands of stories"
データというのは何千ものストーリーを要約したものである。
フォロワー数とかコメント数とか数字で見えるものっていうのは客観的で独立的で誰が見ても同じように見えるけれども、実際にはむしろ逆で、その数字が持つ意味を考えるとひとつひとついろいろなことがあって成り立っていることがわかる。
ただ単にフォロワーやコメント数の数字が増えるなんてことはなくて、
数字が増えるに至るまでぺろりんアイドル8周年目に勇気を出して打ち明けた思いだとか、ライブや配信での積み重ね、ソロイベントでの活躍。
そういったものが積み重なって、すこしずつファンが増えていってコメントしてくれる人やフォローしてくれる人が増えている。
だから、データという形式は一見わかりやすいように見えるけれども、注意が必要でその裏にはひとつひとつ因果関係がある重みのある事象が存在しているということを意識しなければいけない。
言い換えると数字という結果じゃなくて、そこに至るまでにあった過程が大事だということ。
"毎日コメントしてくれるファンの人がいる"ということではなく、
"その人にとって毎日コメントしたくなるほど魅力的なブログである”ということ。
それは、
”たくさんの人がコメントしてくれたブログ”だったのではなく、
"今までコメントしなかった人でもコメントしたくなるほど心を動かすブログ
"だった。ということ。
データ解析する人の鉄則でもあるけれども、データの裏では実際になにが起こっているのか これを理解するために全身全霊を注ぐべきだと思っている。
そういった意味でも、こうしたブログっていうのは文字通り本当にたくさんのストーリーが集まったもので、コメントの数などのデータはこれまでの出来事を色濃く反映していて素晴らしいデータベースになっている。
ぼくたちは当事者として見てきたから改めて言わなくてもわかるけど、1番反響の多かった記事もいろいろな人の心を動かす内容だったことを知っていて、それは実際に数字にも表れている。
だから、こうして集計したデータから次は何をしようか考えるとき、数字に惑わされるんんじゃなくて、実際に何があったのかに注目して考えてほしい。
ちなみに、調べてて1番好きだったのは低気圧の時のブログ
これまでで1番コメントが少なかった。
ヲタクも低気圧に弱くて、影響を受けるんだなぁ。と人間味があっておもしろかった。