見出し画像

異世界転生あるあるを定量的に導出してみた(1)

ぼくは無類の漫画好きで、これまでに読んだ漫画が1万冊を突破しました。読み終わった漫画のリスト(ブクログ)を見ると、この数年間はとにかく「異世界転生モノ」が多いです。異世界転生モノばかりを選んで読んでいるというわけではなく、世の中に出てくる異世界転生漫画の量がどんどん増えているからです。

面白い/面白くないは作品それぞれで、賛否もいろいろあると思いますが、これだけ量があると、お話や設定に一定のパターンがあることについて議論できるようになってきます。いわゆる「あるある」や「テンプレ」が生まれてくるのです。

そんな「異世界転生あるある」についてはいろいろなところで記載されていると思いますが、ここではそれをテキスト分析によって定量的に導出することにチャレンジしてみたいと思います。

この記事では分析の準備と手順についてざっくり紹介しています。結果が知りたいという人は次の記事に進んで下さい。

コーパスの準備

まずは分析の対象となる文書データを集める必要があります。今回の目的にぴったりなのは、世にあふれる異世界転生モノの湧き出し源である小説投稿サイト「小説家になろう」に投稿されたテキストです。

小説家になろうの運営会社が公開している「小説を読もう」というランキングサイトがあるので、そこで次のような条件で検索を行いました。

● キーワード:「異世界」
● ソート  :総合ポイントの高い順
● 小説種別 :連載(完結のみ)

「総合ポイント」が何を指すのかよく分かりませんが、多分有名どころが上になるはずです。実際に検索結果を上位から見てみると

転生したらスライムだった件
無職転生 - 異世界行ったら本気だす -
デスマーチからはじまる異世界狂想曲
八男って、それはないでしょう! 
本好きの下剋上 ~司書になるためには手段を選んでいられません~

となっていて、ぼくも漫画で読んだことがあるものばかりでした。まずは、このように検索した結果から上位100作品のURLを取得するスクリプトを書き、作品URLのセットを取得しました。

次に、各作品から本文をスクレイピングします。先人がつくったスクリプトがGitHub上にあったので、それをちょこっと改造して使わせて頂きました。

こうして100作品22,644ページ分の異世界転生小説のテキストをゲットし、コーパスを構築しました。形態素解析はMeCab & ipadic、その後の解析や図作成にはMatlabを使いました。

頻出語を見てみる

まずはワードクラウドで頻出語を見てみます。名詞だけ抜き出して描いたワードクラウドは次のようになりました。

だいぶ異世界感があふれていますが、これだけだと「あるある」を導き出すことまではできません。そこで次は、言葉の共起関係を調べてみることにしました。

言葉の共起

共起(collocation)とは、ある言葉とある言葉が文書の中で同時に現れることを指します。ここで共起とみなす距離(スパン)を決める必要があります。例えばスパンを4とするとき、文章中で◯◯という単語の前4語または後ろ4語に△△という単語が含まれる場合に「◯◯に対して△△が共起した」とカウントします。

共起数を用いると言葉の結びつきを評価することができますが、その評価方法にもTスコア、MIスコア、LogLogスコアなど様々なものがあります。ここではMIスコア(相互情報量)という指標を使って言葉の結びつきを評価したいと思います。ざっくり言うと、語Aと語Bの間のMIスコアが高いということは、文章中でAが登場したときに、その後に続く(またはその前に現れる)語としてBが登場する可能性が高いことを表しています。詳しく知りたい方は参考書を見て下さい。

下の図はMIスコアで評価した言葉の結びつきを表した「共起ネットワーク」と呼ばれる図です。コーパスの中で頻出する語(上のワードクラウドに示されるような語)のうち上から15個について、それぞれの共起語を5つまで抜き出して表示しました。共起スパンは4としました。リンク(語ノードと語ノードの間の線)が太いほどMIスコアが高い組み合わせとなっています。

ここまでやると、なんとなく異世界あるあるを導出できる気がしてきます。上の図は「異世界小説で頻出の語」と「それぞれの頻出語と結びつきの強い語」の両方を表しているので、この図で登場する強い結びつきを抜き出して「あるある」に変換していきます。例えば上の共起ネットワークを見ると

・「顔」に対して「真っ赤」が強く共起する
・「魔力」に対して「消費」と「量」と「回復」が強く共起する

ということがわかります。ここから、次のような異世界あるあるが導き出されます。

・美少女キャラクターが照れて顔を真っ赤にする
・魔力を消費して回復する

「定量的に」と言いつつ、最後の最後でmiureによるちょっとした翻訳が入ります。しかし最後の翻訳の手前までのところはテキスト分析による定量的な評価の結果なので、まぁよしとして下さい。

結果は次の記事で

こんな感じで「異世界あるある」を定量的に導出していきます。上の例では頻出15語に対する共起だけを抜き出しましたが、これを最終的には300までやってみます。結果は次回の記事をご覧下さい。

関連記事の目次
・異世界転生あるあるを定量的に導出してみた(1):準備と例
異世界転生あるあるを定量的に導出してみた(2):結果①
異世界転生あるあるを定量的に導出してみた(3):結果②
異世界転生あるあるを定量的に導出してみた(4):まとめ

この記事が気に入ったらサポートをしてみませんか?