見出し画像

ネット上の怖い話をトピックモデルで自動分類してみた(3)

こちらの記事の続きです。

トピックモデルによる分類ではないのですが、せっかくコーパス化と分かち書きまでやったので、ついでに共起(collocation)まで見てみました。

共起(collocation)とは、ある言葉とある言葉が文書の中で同時に現れることを指します。「よく共起する言葉」を評価することでいろいろなことが分かります。評価の方法(得点をつける方法)には単純頻度の他、Tスコア、MIスコア、LogLogスコアなど様々なやり方がありますが、ここではMIスコアを使いたいと思います(細かいことは気にしないで下さい)。

まずは14,000話の怖い話全てを対象にして共起する単語を調べてみました。下の図は共起する言葉同士をリンクで結んだ「共起ネットワーク」という図です。リンクが太いほどMIスコアが高い共起となっています。

画像2

全ての関係を描いてしまうとごちゃごちゃしすぎるので、上の図では頻出単語を抜き出して、それぞれの単語に5つの共起語までを表示するようにしました。この共起ネットワークを見ると、例えば次のようなスコアの高い共起関係が見つかります

・「車」と「運転」
・「電話」と「番号」
・「ドア」と「ノブ」

これらは怖い話ではない一般的な文書を対象とした場合でも良く共起する言葉だと思われるので、特に新しい発見はありません。車については

「車」という言葉に対しては「救急」という言葉がよく共起する

という結果が読み取れます。これについてはより一般的な文書をコーパスにしたときは「救急」よりも「自動」や「乗用」などの他の言葉の共起の方がつよくなる可能性があります(やってみないとわかりません)。怖い話を集めたからこそ、「救急」がつよく共起しているのかもしれません。

次に、せっかくトピックモデルで分類した後なので、特定のトピックに分類される文書集合に対して共起を調べてみます。次の図はTopic16(コトリバコなどが含まれるトピック)を対象した場合の共起ネットワークです。

画像2

トピックごとに共起を見ることで、より特徴がはっきりしてきましたね。次のような共起がいかにも怖いです。

・「人間」と「頭蓋骨」
・「人間」と「爪」
・「音」と「ズッズッ」

他にも「お婆さん」に対して「ジャングルジム」が強く共起するのが面白いです。ジャングルジムの近くにお婆さんがいるという状況で怖いことが起きやすいのかもしれません。

もう一個見てみましょう。下の図はTopic19に分類された話を対象にして分析した場合の共起ネットワークです。

画像3

「神」と「蛇」、「父親」と「亡霊」、「友人」と「デブ」などの面白い共起関係がいくつも見つかりますが、ぼくが面白いと思ったのは

「顔」に対して「真っ青」が強く共起する

です。怖い話とは別に自作小説投稿サイト「小説家になろう」の異世界転生ものをコーパスにした分析もやってみたのですが(そのうちnoteに書こうと思っています)、そちらでは

「顔」に対して「真っ赤」が強く共起する

という結果になりました。異世界転生小説では可愛い女の子なキャラクターがチート主人公とのイチャイチャでよく顔を真っ赤にするので、そのような共起が強くなります。怖い話と異世界転生で真逆の結果になったのが面白いですね。自分が登場人物になるならば、絶対に異世界転生小説の方がいいなと思います。


この記事が気に入ったらサポートをしてみませんか?