週刊少年ジャンプのTwitter上での盛り上がりを可視化する「今週のジャンプ関連Twitterデータ」の裏側
毎週月曜日に発売される週刊少年ジャンプ。
月曜0時に電子版が公開されると、ジャンプ各作品の感想・考察ツイートでTwitterは大きく盛り上がります。
私のTwitterアカウントでは、こういったTwitter上での盛り上がりを定量化・可視化する企画(#ジャンプデータ )を毎週やり続けています。
野球やサッカーがデータで楽しまれているのと同じように、ジャンプ関連データがジャンプを楽しむ一つの視点になればいいなと思っています。
この記事では、企画の裏側、どういう手法や基準でトレンドやツイート数を求めているかを説明します。
目的としては、この企画が客観的なスタンスで行われていると信用してもらうこと、そして技術的な限界やバイアスを知ってもらうことです。
ジャンプデータをご覧になったときに「これもトレンド入りしていた筈なのに」「ツイート数が思ってるより少ない」と疑問に思われた方への説明になると幸いです。
トレンド
トレンドはTwittrendというサービスを使って集計しています。
こちらのページでは、1時間ごとの日本のTwitterトレンドを確認することができます。
ジャンプ発売日の1時から12時頃までのトレンドを確認して、その中での最高順位と共に表記しています。
ツイート数
ツイート数は、Yahoo!リアルタイム検索をスクレイピングして取得しています。そしてノイズを除去する操作を加えることで、発売日0時~1時の感想ツイート数を推定しています。
Yahoo!リアルタイム検索は、検索キーワードの直近のツイート推移を確認できる便利ツールです。
「(ロボコ 僕とロボコ)」のように入力するとOR検索ができます。
ツイート数を取得するためのスクレイピングの具体的な手法についてはこちらで説明しています。
各作品の検索クエリは「デフォルトのクエリ」+「その週にトレンド入りした単語」としています。ONE PIECEを例にするとこんな感じ。
デフォルトのクエリ:#今週のワンピ #ワンピース ワンピース ワンピ
トレンドのクエリ:エルバフ
各作品のデフォルトのクエリはページの最後に載せています。
検索クエリを用いて取得したツイート数がこちらです。
点線で示されているのがジャンプ発売の月曜0時で、関連ツイートが急激に増加している様子がよく分かります。月曜0時に約60ツイートされています。
ただ、1日ごとにツイート数が周期的に変動していたり、このままではノイズの多いデータとなっています。
そこで一定の処理を加えることでノイズを除去しています。このノイズ除去は全ての作品・回に共通の手法を適用することで客観性を担保しています。
ツイート数は1日単位で周期的な変動をします(朝から夜にかけて増加して、明け方に少なくなる)
この周期的な変動をツイート数のベースの変化と見なします。具体的には、週の最小値を1時間単位でとります(0時台の最小値、1時台の最小値…)
そして元データからベースを引きます。
更に、1時間前のツイート数との差分をとることで、「ジャンプ発売の前後でどれだけツイート数が増加したか」を示します。
少し具体的に言うと、この操作により「23時に0ツイートだったのが0時に1000ツイートになる場合」と「23時に500ツイートだったのが0時に1000ツイートになる場合」を差別化することができます。「23時に0ツイートだったのが0時に1000ツイートになる場合」の方が盛り上がっているというのは直感的に納得して頂けるかと思います。
これでノイズ除去は終了です。
月曜0時(点線)の値を読み取って今週のツイート数としています。
各作品のデフォルトの検索クエリ
基本的に作品名+略称+本誌タグです。他の話題と混じるような単語は用いないようにしています。
連載作品の変化に応じて随時更新予定です。
ONE PIECE
#今週のワンピ #ワンピース ワンピース ワンピ
ヒロアカ
#ヒロアカ #僕のヒーローアカデミア #ヒロアカ本誌 ヒロアカ 僕のヒーローアカデミア ヒロアカ本誌
ブラクロ
#ブラクロ #ブラッククローバー ブラクロ ブラッククローバー
呪術廻戦
#呪術廻戦 #呪術本誌 呪術廻戦 呪術本誌 呪術
夜桜さんちの大作戦
#夜桜さんちの大作戦 夜桜さんちの大作戦 夜桜さんち
アンデラ
#アンデラ #アンデッドアンラック アンデラ アンデッドアンラック
僕とロボコ
#僕とロボコ 僕とロボコ ロボコ
サカモトデイズ
#サカモトデイズ #サカデイ サカモトデイズ サカデイ
逃げ若
#逃げ若 #逃げ上手の若君 逃げ若 逃げ上手の若君
ウィッチウォッチ
#ウィッチウォッチ ウィッチウォッチ
アオのハコ
#アオのハコ #今週の雛 #今週の千夏 アオのハコ アオハコ
あかね噺
#あかね噺 あかね噺
一ノ瀬家の大罪
#一ノ瀬家の大罪 一ノ瀬家の大罪 一ノ瀬家
暗号学園
#暗号学園のいろは 暗号学園のいろは 暗号学園
人造人間
#人造人間100 人造人間100 人造人間
テンマクキネマ
#テンマクキネマ テンマクキネマ テンマク
キルアオ
#キルアオ キルアオ
ドリトライ
#ドリトライ ドリトライ
鵺の陰陽師
#鵺の陰陽師 鵺の陰陽師
アスミカケル
#アスミカケル アスミカケル
アイスヘッドギル
#アイスヘッドギル アイスヘッドギル
魔々勇々
#魔々勇々 魔々勇々 魔勇
カグラバチ
#カグラバチ カグラバチ
ツーオンアイス
#ツーオンアイス ツーオンアイス ツーオン
想定Q&A
Q:トレンド15位と表示されているけど、自分が見たときはもっと順位が高くて10位だったはず
A:おそらく「1:00に15位→1:30に10位→2:00に15位」のような順位の変動になっていていて、Twittrendの1時間ごとの集計で捉えきれなかった場合だと思います。
Q:トレンド入りしていたはずの単語が抜けている
A:Twitterにはトレンドが2種類あります(普通のトレンドとおすすめトレンド)。おすすめトレンドは各ユーザーの興味に合わせて表示されていて、普通のトレンド入りにはないトレンドがおすすめトレンドには入っていたりするので注意が必要です。ただし、普通に私が見逃している場合もあるのでリプで指摘して頂けると確認します。
Q:どうして月曜0-1時のツイート数だけをカウントするんですか?月曜の夜までジャンプの話題は続きますよね?
A:ジャンプ本誌以外の話題と混ざる可能性が高くなるからです。例えばアニメの放送や情報解禁が昼や夕方にあった場合、それらのツイート数が混ざって本誌の盛り上がりを正確に推定することが難しくなります。
Q: どうして夜桜さんちの大作戦の検索クエリに「夜桜」や「夜桜さん」が含まれないんですか?
A: 他の話題と混同する可能性が高いためです。「夜桜」という名前を使っているユーザーがTwitterには沢山いますし、春には本物の方の夜桜のツイートが急激に増加します。そのため検索クエリに含めていません
Q:ノイズ除去の手法は本当にこれでいいんですか?
A:改善の余地は沢山あると思います。処理の分かりやすさと正確さのバランスに気をつけながら改善していきたいと思います。