(メモ)NHK朝の連続テレビ小説「なつぞら」感想用特殊タグ「なちゅぞら」内に含まれる悪口の傾向を割り出してみたかった
表題のとおりです。
Pythonの練習ついでにソーシャルゲームの公式アカウントに付くクソリプのタイトル別統計を取ろうとして膨大なツイートの管理と分類に困り挫折した筆者が、データ取得の練習を兼ねたネタに困っていたところ
2019年に「朝ドラのアンチタグがアツい」と聞いて「なつぞら」の感想タグ #なちゅぞら に注目。
タグ内のデータを全件取得して解析用の固有名詞辞書を作る所までは進めてみたはいいものの、完全に飽きて放棄していた物について書き残していたメモが出てきたので供養します。また朝ドラ関連が炎上したら呼んでください。炎上しないにこしたことはありませんが。
2019年春夏クールは朝ドラアンチがアツいらしい(広瀬すずアンチもアツいらしい)
Wikipediaから主要キャラクターと俳優のフルネーム・フリガナ・固有名詞を抽出して辞書登録すれば「なちゅぞら」タグ内から「広瀬すず」とその役名「なつ」への言及を含む関連ツイートが簡単に一網打尽できると思っていたが見事に失敗して試行錯誤していた頃の話です。
これだけ頑張っておいて何ですが、「なつぞら」については全クール分の実況データを採取後に前後編の総集編を1回見ただけで終わりました。結構面白かったです。
「タプ兄」と「イッキュウさん」が特にアンチの侮蔑語ではなかった事が意外でした。
テレビドラマの実況ツイートを分析したい
流行語やスラングに強い形態素解析辞書 ipadic の最新版を取得します。
これで芸能人名やテレビ番組名、企業名などを固有名詞として拾えるようになるらしいです。
固有名詞の取得と登録
次に「なつぞら」のWikipediaを開いて登場人物の氏名や愛称、固有名詞、主要スタッフの氏名などを抽出して形態素解析エンジン用の辞書へ登録を行います。
Wikipediaなどの任意サイトから、マークアップされている単語やカッコで括られている単語を任意の方法で抽出し、まとめて辞書に登録。
これで劇中登場人物の氏名や劇中劇『魔法少女アニー』『神をつかんだ少年クリフ』『大草原の少女ソラ』、「菓子屋 雪月」「東洋動画」「マコプロダクション」等の劇中固有名詞を拾えるようになります。
少年クリフ,1288,1288,1110,名詞,固有名詞,一般,*,*,*,神をつかんだ少年クリフ,フリガナ,フリガナ
わんぱく牛若丸,1288,1288,1100,名詞,固有名詞,一般,*,*,*,わんぱく牛若丸,フリガナ,フリガナ
拳銃渡世人,1288,1288,1100,名詞,固有名詞,一般,*,*,*,拳銃渡世人,フリガナ,フリガナ
三代目カポネ,1288,1288,1100,名詞,固有名詞,一般,*,*,*,三代目カポネ,フリガナ,フリガナ
神をつかんだ少年クリフ,1288,1288,1100,名詞,固有名詞,一般,*,*,*,神をつかんだ少年クリフ,フリガナ,フリガナ
赤い星座,1288,1288,1100,名詞,固有名詞,一般,*,*,*,赤い星座,フリガナ,フリガナ
大草原の少女ソラ,1288,1288,1100,名詞,固有名詞,一般,*,*,*,大草原の少女ソラ,フリガナ,フリガナ
白蛇伝説,1288,1288,1100,名詞,固有名詞,一般,*,*,*,白蛇伝説,フリガナ,フリガナ
白蛇姫,1288,1288,1100,名詞,固有名詞,一般,*,*,*,白蛇姫,フリガナ,フリガナ
百獣の王子サム,1288,1288,1100,名詞,固有名詞,一般,*,*,*,百獣の王子サム,フリガナ,フリガナ
魔界の番長,1288,1288,1100,名詞,固有名詞,一般,*,*,*,魔界の番長,フリガナ,フリガナ
魔界番長,1288,1288,1100,名詞,固有名詞,一般,*,*,*,魔界の番長,フリガナ,フリガナ
魔法少女アニー,1288,1288,1100,名詞,固有名詞,一般,*,*,*,魔法少女アニー,フリガナ,フリガナ
主要な登場人物は名前の後にフリガナが振られていることが多いのでフリガナも一緒にエクセルにまとめておきます。
こうしてせっせと作成したmecab用追加辞書で、試しに2019年8月第3週 「なつよ、」分のツイートのデータを読み込ませてみましたが、
結論から申し上げますと主人公「奥原なつ」への言及ツイートを一網打尽で抽出することに失敗しました。
どうやら主人公「奥原なつ」は #なちゅぞら タグ内で「なちゅ」と呼ばれている事が多いようです。
人名「なちゅ」と「なつ」を同一の単語としてカウントできるよう辞書に登録しておきます。
作中で使用される呼称「なっちゃん」も「なつ/なちゅ」に纏めることにしました。
ヤケクソで関数を作って自動生成総当りの呼び方バリエーションを形態素解析用の辞書に登録しておくことにしました。
なつ,1289,1289,3400,名詞,固有名詞,人名,一般,*,*,なつ/なちゅ,フリガナ,フリガナ
なちゅ,1289,1289,2400,名詞,固有名詞,人名,一般,*,*,なつ/なちゅ,フリガナ,フリガナ
なーちゅ,1289,1289,2400,名詞,固有名詞,人名,一般,*,*,なつ/なちゅ,フリガナ,フリガナ
ナツ,1289,1289,2400,名詞,固有名詞,人名,一般,*,*,なつ/なちゅ,フリガナ,フリガナ
奥原さん,1289,1289,1400,名詞,固有名詞,人名,一般,*,*,奥原なつ,フリガナ,フリガナ
ナッツ,1289,1289,1400,名詞,固有名詞,人名,一般,*,*,なつ/なちゅ,フリガナ,フリガナ
NATU,1289,1289,1400,名詞,固有名詞,人名,一般,*,*,なつ/なちゅ,フリガナ,フリガナ
nt,1289,1289,8100,名詞,固有名詞,人名,一般,*,*,なつ/なちゅ,フリガナ,フリガナ
なつ様,1289,1289,1300,名詞,固有名詞,人名,一般,*,*,なつ/なちゅ,フリガナ,フリガナ
なちゅ様,1289,1289,1300,名詞,固有名詞,人名,一般,*,*,なつ/なちゅ,フリガナ,フリガナ
NATU,1289,1289,1400,名詞,固有名詞,人名,一般,*,*,なつ/なちゅ,フリガナ,フリガナ
なつさん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,なつ/なちゅ,フリガナ,フリガナ
なつさん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,なつ/なちゅ,フリガナ,フリガナ
ナツさん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,なつ/なちゅ,フリガナ,フリガナ
ntさん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,なつ/なちゅ,フリガナ,フリガナ
ナッチャン,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,なつ/なちゅ,フリガナ,フリガナ
なつちゃん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,なつ/なちゅ,フリガナ,フリガナ
なっちゃん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,なつ/なちゅ,フリガナ,フリガナ
なっつー,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,なつ/なちゅ,フリガナ,フリガナ
ナッちゃん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,なつ/なちゅ,フリガナ,フリガナ
それでも「奥原なつ」を表していると思しき単語はザクザク検出されます。
広瀬すずの特定の表情が(気に入らないという理由で)#なちゅぞら 実況民の一部から「ホヨヨ顔」「ほよ顔」と呼ばれているらしく、追加で「ほよ姫」「ほよ様」などのパターンも辞書登録することにしました。
なつ姫,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,なつ姫,フリガナ,フリガナ
なちゅ姫,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,なつ姫,フリガナ,フリガナ
ほよ姫,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,ホヨ姫,フリガナ,フリガナ
ホヨ姫,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,ホヨ姫,フリガナ,フリガナ
ほよ,1289,1289,5400,名詞,固有名詞,人名,一般,*,*,ほよ/ほよよ,フリガナ,フリガナ
実況ツイート分析の難しさ
ドラマに限らず実況ツイートによくある事ですが、登場人物の名前は皆さん結構うろ覚えです。
なのでWikipediaから取得した登場人物の氏名とフリガナを元に、
同じ登場人物を指す単語をまとめて集計できるよう、呼び方のバリエーションを(自作関数による自動生成総当りで)形態素解析用の辞書にあらかじめ登録しておきました。
「なつぞら」に登場するキャラクター名と役者名の総当りパターンで2000件ほどの登録データを作成していた記録が記録媒体に残っていました。
とよ,1289,1289,8100,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
トヨ,1289,1289,8100,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
とよさん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
とよさん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
トヨさん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
トヨさん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
とよばあ,1289,1289,1400,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
とよばぁ,1289,1289,1400,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
とよ婆さん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
とよばあさん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
とよばぁさん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
とよ婆ちゃん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
とよばあちゃん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
トヨバアちゃん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
とよばぁちゃん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
トヨ婆,1289,1289,1400,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
トヨばあ,1289,1289,1400,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
トヨバア,1289,1289,1400,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
トヨばぁ,1289,1289,1400,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
トヨ婆さん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
とよ婆,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
トヨばぁさん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
トヨ婆ちゃん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
トヨばあちゃん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
トヨバアちゃん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
トヨばぁちゃん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,とよ婆ちゃん,フリガナ,フリガナ
この時、侮蔑的なニュアンスの強い表記は別の単語としてカウントするように分ける処理を行いました。
「山田天陽」の集計では「山田天陽」「天陽」「てんよう」「テンヨー」等を同一の語句として扱っています。
一方で「山田天陽」の侮蔑語として#なちゅぞら タグ内に出現した「天尿/てんにょう」 は「山田天陽」とは別の語句として集計を行うことにしました。
タグを抽出する
形態素解析で検出した「 # 」記号の前後の語句から「#なちゅぞら」タグと併用されて使われている頻度の高いハッシュタグも抽出していきますと、「#なちゅぞら」タグを除き224件のハッシュタグが抽出できました。これも形態素解析用の辞書に登録しておきます。
隠語を抽出する
「#なちゅぞら」タグ内の形態素解析済みデータを眺めていると、どの週のデータを取得しても「hrssz」「sz」という未知語が検出される事に気が付きました。
コンコーダンスから「hrssz」「sz」が出現した前後の文章をチェックする限り、どうも人の名前を指しているようです。
女優でhから始まる5文字の人名、あるいは2文字の人名で「なつぞら」あるいは朝ドラと関連がある固有名詞。
「hrs」 ハルセ、ハラセ、フルス、ヒルス、ヒロス、ハラス、ヒロセ…
「sz」 えすじー、えすぜっと、スジ、サズ、セゾ、サゼ、 スズ…
「ヒロセ スズ」
「hrssz」はどうやら「広瀬すず(hirose suzu)」のアルファベット表記から母音aiueoを抜いた隠語(?)のようです。一気に暗号解読じみてきました。
その調子で「しゅじゅ」「ずず」などの【広瀬すず】を表す隠語のパターンを片っ端から登録していきます。
広瀬さん,1289,1289,1400,名詞,固有名詞,人名,一般,*,*,広瀬すず,フリガナ,フリガナ
広瀬すず,1289,1289,1400,名詞,固有名詞,人名,一般,*,*,広瀬すず,フリガナ,フリガナ
ひろせすず,1289,1289,1400,名詞,固有名詞,人名,一般,*,*,広瀬すず,フリガナ,フリガナ
スズヒロセ,1289,1289,1400,名詞,固有名詞,人名,一般,*,*,広瀬すず,フリガナ,フリガナ
すず,1289,1289,3400,名詞,固有名詞,人名,一般,*,*,広瀬すず,フリガナ,フリガナ
hirosesuzu,1289,1289,1400,名詞,固有名詞,人名,一般,*,*,広瀬すず,フリガナ,フリガナ
すず姫,1289,1289,1400,名詞,固有名詞,人名,一般,*,*,広瀬すず,フリガナ,フリガナ
sz,1289,1289,5400,名詞,固有名詞,人名,一般,*,*,広瀬すず,フリガナ,フリガナ
sz,1289,1289,5400,名詞,固有名詞,人名,一般,*,*,広瀬すず,フリガナ,フリガナ
SZ,1289,1289,5400,名詞,固有名詞,人名,一般,*,*,広瀬すず,フリガナ,フリガナ
しゅじゅ,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,広瀬すず,フリガナ,フリガナ
広瀬すずさん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,広瀬すず,フリガナ,フリガナ
ひろせすずさん,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,広瀬すず,フリガナ,フリガナ
ヒロセスズ,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,広瀬すず,フリガナ,フリガナ
広瀬,1289,1289,5500,名詞,固有名詞,人名,一般,*,*,広瀬すず,フリガナ,フリガナ
hrssz,1289,1289,1200,名詞,固有名詞,人名,一般,*,*,広瀬すず,フリガナ,フリガナ
すずさん,1289,1289,2000,名詞,固有名詞,人名,一般,*,*,広瀬すず,フリガナ,フリガナ
すず様,1289,1289,2000,名詞,固有名詞,人名,一般,*,*,広瀬すず,フリガナ,フリガナ
スズ様,1289,1289,2000,名詞,固有名詞,人名,一般,*,*,広瀬すず,フリガナ,フリガナ
すずちゃん,1289,1289,2000,名詞,固有名詞,人名,一般,*,*,広瀬すず,フリガナ,フリガナ
ずず,1289,1289,2000,名詞,固有名詞,人名,一般,*,*,広瀬すず,フリガナ,フリガナ
hrs,1289,1289,5000,名詞,固有名詞,人名,一般,*,*,広瀬すず,フリガナ,フリガナ
ipedicで拾えなかった罵倒スラングのバリエーションも地道に拾って辞書登録していきます。
ラーメンの油を箸で一つに繋げるような地道な作業。
この辺で飽きた気がします。