ネット上の怖い話をトピックモデルで自動分類してみた(2)
こちらの記事のつづきです。
(1) ではネット上の怖い話14,000件から30個のトピックを生成してみました。では、その14,000件の怖い話はそれぞれどのトピックに分類されるのでしょうか?LDAは一つの文書が複数のトピックを持っていることを仮定していますが、ここではそれぞれの文書について最も重み(尤度)が大きいトピックをその文書の主要なトピックとして分類します。すると、各トピックに分類される文書の数は下図のような分布になります。
一番多くの文書が分類されたのは Topic 4 の1,635件、二番目は Topic 1 の956件でした。トップであるTopic 4 のワードクラウドは次のようになります。
部屋、ドア、窓、住まいに関する語をはじめ、日常的な語が多く登場するトピックのようです。「日常の中の怖い話」が最も多いということですね。
ぼくの好きなタイプの話として「神社や祠にまつわる話」や「山で起きる怖い話」があるのですが、それらは Topic 18 として現れているようです。分類された文書の数は475件で、中堅クラスと言ったところです。好きなタイプなのでついつい代表的なものだと思いこんでしまっていたのですが、トップクラスに多い話というわけではないようです。データの方が正しいと思います。
次に、トピックの生成に使った14,000件の怖い話とは別の文書が、どのトピックに分類されるか見てみます。
まずは、ぼくが(珍しく)遭遇したちょっと怖い話を文書にしたものを突っ込んでみます。学生のときにブログに書こうとしてお蔵入りになってたやつです。
ざっくりの内容は
● 友人たちと夜のハイキングに出かけて集落を歩きまわっていたら
● どの家も一部屋だけ電気が点いていて
● しかもそれが全て青い光だったから怖くなって
● そこから抜け出そうとしたら「神憑り橋」と書いた橋があった
というものです。これを洒落怖から生成したトピックモデルで分類してみたところ、下のようなTopic 17 に分類されました。
先輩は登場しない話でしたが、雰囲気としてはだいたい合ってるんじゃないかなと思います。ぼくが手動で分類したとしても、おそらくこのトピックを選んでいたと思います。
次に、怖い話とは全く関係ない文書を突っ込んでみようかなと思います。ぼくが大好きな映画である「天空の城ラピュタ」より、ムスカ大佐の全てのセリフを書き起こしてみました。
ムスカ大佐のセリフを無理やり怖い話だと仮定してトピックモデルに突っ込んでみると、下図の Topic 16 に分類されました。
「ども」とか「戦争」とか「言葉」とかその辺の単語がひっかかったのかなと思います。ちなみにこの Topic 16 は、有名なコトリバコという話や、その模倣としてたくさん投稿された数々の話に相当するトピックであり、個人的にとても好きなパターンのお話です。
大好きなムスカ大佐のセリフと、お気に入りのパターンである箱の話が同じトピックに分類されて、個人的に満足度の高い結果となりました。
次の回では言葉の共起について調べてみました。