「映画 刀剣乱舞」の全セリフをテキストマイニングを使って分析してみた。

■はじめに

この映像をご覧いただきたい。

「映画 刀剣乱舞」の本予告の中で最も多く登場した言葉は何だと思いますか?

それは「歴史」です。
字幕で6回、音声で7回、合わせて13回登場しています。

本予告を初めて見た際に、「歴史」という言葉が妙に頭に残った私は、
映画本編では何回使われているのか気になってしまい、
映画を見ながら数えました。えぇ、数えたんです。

すると「歴史」という言葉は本編で約40回使われていることが分かりました。上記の予告編には、約100分の映画に出てくるうちの約17%が入れ込まれていたのです。

「映画 刀剣乱舞」の原案である、ゲーム「刀剣乱舞-ONLINE-」では、
歴史を守る使命を与えられたプレイヤーが、刀剣男士を率いて歴史改変を目論む敵と戦う…という筋書きがあるのですが、

「映画 刀剣乱舞」においても、「歴史」という言葉は最重要キーワードと言えるではないだろうか?

…と思いました。それに加えて、

・「歴史」よりも多く登場する単語はあるか?
・あるとして、どれくらいの量や差があるか?
・この映画はコミカライズされているが、台詞上では映画とコミックはどれくらい違いがあるか?

…という疑問も湧き上がってきました。
これを調べたいがためにテキストマイニングを使った分析に挑戦してみました。


既に似たような研究を行っている方がおります。
ご許可をいただきましたので紹介します。

同人サークル「ぷさいあにま」様。
アニメ「魔法少女まどか★マギカ」について調査研究されています。

こちらの「MADO☆MAGI Statistical Analysis:愛よ!!!!」内では、「まどマギ全キャラの台詞テキストマイニング」と題して、
まどマギのメインキャラクターのセリフの中から特徴的に用いられた言葉を明らかにし、物語の流れを分析する、という試みの調査結果が掲載されています。
冬コミで偶然通りすがりに出会い、ふと手に取った本だったのですが、もう面白いのなんのっていう…

この同人誌がきっかけで知ったのが、
今回使用した計量テキスト分析ができるソフト「KH Coder」です。
詳しく調べてみると、フリーソフトとは思えないほど多彩な機能がありましたので、私もこれを使って分析をしてみようと思いました。調査を進めるにあたり、ぷさいあにま様の手法を参考にさせていただいています。


…というわけで、これから記すのは、その分析結果の一部をまとめたものになります。

「統計」「分析」というとなんだか堅苦しく感じるかもしれませんが、
この分野にまったく触れたことが無い方でも分かりやすいようにまとめたので、ゆるっと読んで楽しんでいただけますと嬉しいです。


■免責事項

この記事は「映画 刀剣乱舞-継承-」(以下、映画)のいちファンである筆者が、
映画とそのコミカライズ版であるマンガ「映画 刀剣乱舞」(以下、コミック版)をテキストマイニング的に分析してみようと試行錯誤したあれやこれやを文章にまとめたものです。

今回の調査で使用したソフトは、学術的研究にも使われているものですが、筆者が算出したデータやその解釈について、学術的な妥当性や、公共的な信頼性は保証できかねます。
あくまでも「いちファンがまとめた感想考察」として受け取っていただけますと幸いです。

文章の性質上、映画本編のネタバレが大いに含まれています。ご了承ください。


■テキストマイニングとは?

テキストマイニングとは、文章から情報を抽出して分析する手法のことです。データマイニングの一種です。

データマイニングとは
「データ(Data)から有益な情報を発掘(mining)する技術や手法をあらわすデータ解析に関する概念」
のことを指します。

出典|AI drops 編集部,「データマイニングとは?できること、準備と手順、分析方法・活用事例など

テキストマイニングで膨大な文章を整理・解析することにより、様々な情報を獲得することができます。
しかし、今回分析の対象としたのは「映画」「コミック」です。
文章化されていない情報(特に視覚的な情報)は分析することができない、ということは念頭に置いておかねばなりません。要注意です。


■今回の分析対象について

・「映画刀剣乱舞 -継承-」の全セリフおよびナレーション
・映画刀剣乱舞 公式シナリオブック (2019,小林靖子/脚本・「映画刀剣乱舞」製作委員会/監修,小学館)
・映画 刀剣乱舞 (上) (2019,大柿 ロクロウ,小学館)
・映画 刀剣乱舞 (下) (2019,大柿 ロクロウ,小学館)

映画本編における全てのセリフとナレーションを文字起こしして分析対象としました。仮名遣いは「映画刀剣乱舞 公式シナリオブック」に沿う形で統一しました。
所謂「アドリブ」と思われるセリフの仮名遣いは、シナリオブックを参考にして記述しました。

コミック版「映画 刀剣乱舞 (上)」「映画 刀剣乱舞 (下)」に関しても、
映画と同様、全てのセリフとナレーションをデータ化しています。


■使用した分析ツールについて

KH Coder(ver.3.Beta.01g)
ユーザーローカル テキストマイニングツール
統計分析フリーソフト「R」(ver.4.0.2)
  (※「R」は「KH Coder」内の計算を確認するために使用しました)

分析は全て64bit版のWindows10上で行っています。


■補足

分析にあたり、データに下記のような処理を施しています

・助詞、感動詞、擬音など、単体で意味をなさないと思われる単語は除外
・「刀剣男士」など、一般名詞ではないが作品特有の固有名詞は、分析対象となるように設定する
・「信長」「右府さま」「信長公」「織田信長」…などの同義語は一つの語として分析されないようにする
・データ抽出時に混ざる可能性が高い「命(いのち)」と「命(メイ)」は別々に分析されるように設定する


■その他裏話

データ入力は時間がかかるためGoogleドキュメントの音声入力に頼るつもりだったのですが、
これが意外なことにあまり使えず…(BGMの音量が大きくなったり、突然SEが入ったり、複数人が会話していたりするとセリフが判別できないみたいで、入力精度ががくんと落ちるのです…)
ですので、データ入力は、ほぼ全て手打ちで行いました。とほほ…

映画のBlu-rayを再生し、聞き取り損ねては巻き戻し、また再生。
シナリオブックやコミックと睨めっこしながらキーボードを叩き続け、結果、総文字数は2万2千を超えました。

KH Coderの使用方法や仕組みを勉強をしながら、データ修正、再分析、その繰り返し…3ヶ月くらいかかりました。まとめるのにさらに3ヶ月かかりました。いやはや…他の作業と並行して進めていたので時間がかかったとはいえ、なかなか骨が折れました…
ですが、自分の好きなことを勉強するのはこれがなかなか楽しい。楽しかったです。

では、前置きはこの辺りにして、
結果を見ていきましょう!


■分析結果

映画の文字起こしデータの中で抽出された語の数は「7981語」、
その中で分析対象となった語は「2312語」、
コミック版のデータから抽出された語の数は「6991語」、
分析対象となった語は「2102語」になりました。

最初にデータを全体的に俯瞰します。映画・コミック版それぞれの頻出語ランキングを作成しました。

▼①ー1.頻出語ランキング

1映画_頻出語句_200816

1-2映画コミック版_1頻出語句_200816

映画、コミック版ともに「歴史」が堂々の第一位。
二位が「主」
三位が「三日月」
…という結果になりました。上位は固有名詞が多いですね。

さらに見ていくと、三日月の仲間である刀剣男士たちの名前よりも「無銘(=倶利伽羅江)」が圧倒的に出現回数が多いことが分かります。
無銘は映画オリジナルキャラクター。
ですので、観客に存在を印象付けられるように名前を呼ばれることが多かったのかも…?

映画では「長谷部」「不動」「鶯丸」「骨喰」「日本号」
コミック版では「骨喰」「薬研」「鶯丸」
…が、比較的出現回数が多いことが分かります。

刀剣男士の中では「山姥切国広」に関する単語のみ極端に出現回数が低い結果となりました。

この映画における山姥切は、
アクションシーンで一騎当千の活躍を魅せてくれましたし、「三日月は嘘をつくのが下手」ということをさらっと暴露しながらも場の雰囲気をフォローしたり、第一部隊が分断された後も伝書鳩を飛ばしたり、布だけでなく靴下まで汚れていたり…と印象に残ったシーンやカットはいくつも思い浮かぶのですが、
物語の本筋となる歴史の流れにあまり積極的に絡んでくるようなキャラクターではありませんでした。

これは彼の刀剣としての来歴を確認することで納得できてしまうのですが、刀剣「山姥切国広」が作られたのは天正18年。今回の出陣先である天正10年に彼はまだ存在していないのです。

刀剣・山姥切国広は、戦国武将・長尾顕長が所有する刀剣・本作長義(以下、五十八字略)の写しとして、刀工・田中國廣(後の堀川国広)により作刀されました。
山姥切を作る以前の田中國廣は何をしていたかというと、「日本刀大百科事典」によるところでは、山伏として諸国を放浪していたようです。
なお、山姥切の本歌である「本作長義(以下、五十八字略)」は、刀剣乱舞のキャラクター「山姥切長義」のモチーフとなっています。

作中で「ピュアな存在」という役割を担っていたのは骨喰藤四郎(記憶が無いという意味でも、刀剣男士としての経験値が低いという意味でも)でしたが、
実は刀剣としては最も若いのは山姥切国広だったりします。


…さて、頻出語ランキングの分析に戻りたいと思います。
歴史上の人物に関する単語で圧倒的に出現頻度が高かったのは「信長」。「お館様」「信長公」…など、信長に関する語は他にもいくつか上位に入っていました。
それに次いで「光秀」、続いて「秀吉」という結果になっています。
コミック版の頻出語ランキングでは「秀吉」よりもあだ名である「猿」の方が上位にありました。

ここまで体言(名詞、代名詞など)の言及してきましたが、
用言(動詞、形容詞、形容動詞など)も見てみましょう。

最多だったのは「言う」
そして「守る」「知る」…などの動詞が続きます。
映画・コミック版ともに同じような傾向がみられますが、映画で14回も使われていた「待つ」という単語はコミック版では8回しか使われていません。
逆にコミック版で14回も出現した「良い」という単語は、映画の頻出語ランキングには入りませんでした。


…以上、ざっくりと結果を読み解いてみました。
映画とコミック版はほぼ同じストーリー展開をしているのですが、
セリフの言い回しにおいては、書き手(小林靖子氏・大柿ロクロウ氏)によって少なからぬ違いがあることが伺えます。

では、映画・コミック版それぞれにしか登場しない言葉はあるのか?どれくらいあるのか?

確認してみましょう。

▼①ー2.映画・コミック版それぞれにしか登場しない言葉

「ユーザーローカル テキストマイニングツール」では、
2つのデータを比較して、その偏りを調べるという機能があったので、使ってみました。
その結果がこちら。
単語にそれぞれ色がついていますが、青色が名詞、赤色が動詞、緑色が形容詞に分類されたということを示します。

2ユーザーローカルでの分析

●映画のみに登場する言葉
みな:映画シナリオでは「みな」で統一。「皆」という表記は無し
怖い:「引かねえと、このお兄さん怖いぜ。俺も優しいほうじゃねえが」
 日本号のセリフ。時間遡行軍を挑発する言葉。
優しい:「引かねえと、このお兄さん怖いぜ。俺も優しいほうじゃねえが」
 同じく日本号のセリフ。
堅い:「堅いこと言うなって」
 不動のセリフ。飲酒を咎める鶯丸に対しての返し。
鬱陶しい:「俺たちがぞろぞろ顔を並べても鬱陶しいだけだ」
 山姥切のセリフ。審神者に会えないことを不服とする長谷部に対して。
●コミック版のみに登場する言葉
:コミック版では「」で統一。「みな」という表記は無し
フン:登場人物が鼻を鳴らして笑う時の擬音
強い:強い…」
 モブ兵士のセリフ。本能寺の変で刀剣男士の戦いを目の当たりにした際に思わず言葉を漏らす。
騒々しい:「ええい一体何じゃ、騒々しい!」
 秀吉のセリフ。伝令が駆け込んできて騒がしくなった状況での言葉。
痛い:「おまけに最近は腰まで痛くてな」
 三日月のセリフ。本能寺の変から帰還後、審神者と話すシーン。
:「応!
 刀剣男士たちのセリフ。「…それでは、行くぞ」という三日月の言葉に「応!」と返す。少年マンガっぽい熱さがありますね。
:信長の一人称
お館さま:「お館様」の表記ゆれ
:「わけ」の表記ゆれ

先ほど
>コミック版では14回使われている「良い」という単語は
>映画の頻出語ランキングには入りませんでした。

…と書きましたが、理由がわかりました。
映画シナリオでは「良い」ではなく「よい」と書かれていたからなのですね。

KH Coderは、ひらがなだけからなる動詞・名詞・形容詞・副詞について、「動詞B」「名詞B」…というように「B」を付けた品詞名に分類しており、
なおかつデフォルトの設定で、それらの「Bを付けた品詞」は分析から除外されるように設計されています。

開発者の樋口氏はその理由を
「ひらがなだけからなる語については,どのような文章の中でも出現するような一般的な語が多く,文章の内容を反映しないことが多い」
からとしています。
(出典|樋口耕一「言語研究の分野における KH Coder 活用の可能性」)

今回はデフォルト設定のままで分析を行っていますので「動詞B」は除外されています。
そのため、映画の「よい」は頻出語ランキングに入らなかったというわけです。

さて。最初に挙げた3つの疑問点

・「歴史」よりも多く登場する単語はあるか?
・あるとして、どれくらいの量や差があるか?
・この映画はコミカライズされているが、台詞上では映画とコミックはどれくらい違いがあるか?

…は、おおよそ解決してしまったのですが、
ここで終わってしまうのはあまり面白くないですね。
テキストマイニングの醍醐味をまだ全然味わえていません。

ですので、ここからは

・「映画内でよく使われた単語」同士の結びつき
・実際の映画の中で、言葉がどのような役割を果たしたか?

…について見てみたいと思います。

「よい」という単語が分析対象として抽出されるように設定し直し、
共起ネットワークを作成しました。

▼②ー1.共起ネットワーク

共起ネットワークとは、出現パターンが似通った単語同士を線で結び、その関係性を図にしたものです。

※補足※
「出現パターンが似通う」ことを、この分野では「共起する」「共起関係にある」「共起が強い」というような言い回しをします。

頻出語ランキング内の単語を用いて作成した共起ネットワークがこちら。

3映画_抽出語_共起ネットワーク_相関図_係数0.05_200810_r

おお!なんだか「分析」っぽい感じが出てきましたね!
この図の読み方を簡単に説明します。

出現回数が多い単語ほど大きな円で描画される

シナリオのどの部分で多く使われていたかで円の色が変化する
 「赤みが強い円」=「シナリオの前半で頻出する単語」
 「青みが強い円」=「シナリオの後半で頻出する単語」
 「黄色い円」=「前半・後半に大きく偏らずに頻出する単語」

シナリオのどの部分で共起が多く生じていたかで円の色が変化する
 「赤みが強い線」=「シナリオの前半で単語間に共起が生じている」
 「青みが強い線」=「シナリオの後半で単語間に共起が生じている」
 「黄色い線」=「前半・後半に大きく偏らずに共起が生じている」

円と円の間の距離は、共起関係の強さとは関係無い

パッと見て、最もわかりやすいのは「歴史」という言葉と共起関係にある単語群でしょうか。
「変える」「変わる」「死ぬ」「守る」「正しい」「時間遡行軍」…
…確かに、いかにも「歴史」と一緒に使われそうな単語ばかりです。

「骨喰」「兄さん」が共起関係にあるのはめちゃめちゃ納得しますね。

個人的に面白かったのが「三日月」と最も共起関係にあるとみなされた単語が「考える」であったことです。確かに

長谷部「三日月は何を考えているんだ……!なぜ信長を助ける」

…など、「考える(考え)」という単語は「三日月」という単語と一緒に使われることが多かったです。

ですが、もしかすると、
「三日月」と最も共起関係にある単語が「考える(考え)」なのではなく、
「考える(考え)」と最も共起関係にある単語が「三日月」
…と考えた方がしっくりくるかもしれません。

さて。
共起ネットワークの中に、際立って大きな円がいくつかあるのが分かると思います。
「歴史」「三日月」「信長」「主」という単語です。
これらは頻出語ランキングの1~4位に入っていたものです。
その次に大きいのはランキングで7位に入っていた「守る」
5位、6位に入っていた「今」「言う」という言葉はネットワーク内に表示されていません。

つまり「今」「言う」は登場する回数こそ多いですが、
単語同士のつながりの中で特徴的な言葉と見なされなかったというわけですね。

「歴史」「三日月」「信長」「主」そして「守る」は頻出語でもあり、特徴的な言葉でもある。

そこで、今回は

「歴史」「三日月」「信長」「主」「守る」

…の5つを作中の重要キーワードとして見てみようと思います。


共起ネットワークを確認すると、
「信長」はシナリオ前半部、
「三日月」「守る」はシナリオ後半部、
「歴史」「主」は特に大きな偏りは無く登場している、ということが分かります。

では、重要キーワードが映画のどのあたりで使われていたのか?
具体的に確認してみましょう。


▼②ー2.シーン別「特徴的な単語」

コミック版の話数の区切りに合わせ、映画のシナリオも1~10話に区分してみました。
各話数で発生した出来事をざざっと一覧にしてみましたので、参考までにご覧ください。

時系列整理

さっそく結果も見ていきましょう。

KH CoderではJaccard係数を算出することで「データ内で特徴的な単語」を示すことができます。

Jaccard係数とは、単語と単語の共起の強さを示すための指標の一つで、0~1の間の数値で表されます。
この値が1に近くなるほど共起が強く(特徴的であり)、0に近ければ近いほど共起が弱い(特徴的ではない)と見なすことができます。

Jaccard係数の算出結果がこちら。係数が高い順に並べてあります。
「歴史」「三日月」「信長」「主」「守る」は、視認しやすいようマーカーを引いています。

5映画_外部変数と見出し_11~10部ごとの特徴的な言葉_200816

結果表だけ見てもわけがわからないと思うので
共起ネットワークも作成しました。

6映画_抽出語-場面No.の共起ネットワーク(集計単位:文)_not標準化_200807_r

「●話」を示す四角から放射線状に線が出ています。
それが「●話で特徴的な単語」です。
たとえば「今」「時間遡行軍」「明智光秀」「審神者」「死ぬ」「行く」
…は1話で特徴的な単語と示されています。

図の中心にある単語(「歴史」など)は、「映画全編を通して特徴的な語」という風に見てもらえたらと思います。

先ほどの共起ネットワークでは見当たらなかった「今」「言う」が今回の共起ネットワークでは復活しています。
つまり「●話」単位で区切ると「今」「言う」という単語は「特徴的な言葉」であると見做されるようですね。

…さて。
先ほど「重要キーワード」とした5つの単語について見てみると以下のようなことが分かります。

●「歴史」→5つ以上の話数を通して特徴的な語
●「三日月」→5つ以上の話数を通して特徴的な語
●「信長」→4つの話数(1,2,4,7話)で特徴的な語
●「主」→3
つの話数(3,7,10話)で特徴的な語
●「守る」→単一のシーン(10話)で特徴的な語


ここで思い出してほしいことがあります。

今回の分析の大前提として

>同義語(例:「信長」「右府さま」「信長公」「織田信長」)は一つの語として分析されないように設定する

…という設定をしました。
つまり、同じ概念を指し示す言葉は、現在それぞればらばらになって結果に反映されているのです。

つまり同義語をまとめて分析することができれば
「三日月宗近という概念」「織田信長という概念」が作中でどのように変化したか分かると思いませんか?

▼②ー3.重要キーワードのシーン別推移

KH Coderには「コーディングルール」を設定する機能があります。
これを使うと、複数の単語をグループとしてまとめることができ、グループ単位で分析することができるのです。

例えば「織田信長」「信長」「信長公」「信長様」
…などを「信長グループ」、
「三日月」「三日月宗近」「宗近」
…などを「三日月グループ」と指定して分析することができます。

その機能を使って「歴史」「三日月」「信長」「主」「守る」を分析した結果がこちらです。

バブルプロット(散布図の一種。縦軸と横軸と交点にある図形の大きさで3つの要素を表現している)を使って示します。

7映画_コーディングルールに基づいたバブルプロット(キーワードの出現割合変遷)_0814

バブルプロットにおいて、
その話数での出現割合の多い単語ほど四角のサイズが大きくなります。
また相関関係が高ければ高いほど四角形の色は赤みを帯びます。

つまり、色が赤ければ赤いほど、
そのシーンにおいて「熱い言葉」だということです。

こうして見てみると、
「主」「信長」の概念はほぼ負の相関関係になっているのが分かると思います。
確かに、劇中で「信長」の話題が出ている時は「主」に関する話題は出ませんでした…!逆もまた然り…!

「歴史」は全編通じて登場する概念のようですが、
より「熱い言葉」として見なされたのは1話と8話のようです。

1話では、物語の大前提として刀剣男士たちの使命である「歴史を守る」ということが印象付けられるようになっており、
8話では、三日月によって「信長が死んだ場所は本能寺ではなく安土城であった」という真実の歴史が明かされました。納得の結果です。

「三日月」もまた全編通じて登場する概念です。
このバブルプロット上では、2話、7話での相関関係が低いとみなされていますが、2話はアクションがメインだったので「時間遡行軍と戦っている三日月」は画面に出ていました。
(なお、2話では三日月以外の刀剣男士の名前もセリフの中に出てこない傾向が見られました)

しかし7話は、視覚的情報においても「三日月」という概念が希薄になっていました。
本丸の結界には異常が発生し、秀吉の企みがつまびらかになり、そして長谷部が火縄銃で撃たる…という衝撃のイベントが次々に発生する話数でした。
ここでいったん三日月から注意を逸らすことで、
直後の8話で「真実の歴史」が明かされる時のインパクトが増す
なぁ…と思いました。

「守る」は、そもそも単語数が少ないので他の4つの言葉に比べると四角のサイズが小さめになっています。
「守る」が最も「熱い言葉」として見なされたのは9話
このシーンでは信長と三日月の戦いがありました。
かつて足利将軍家で三日月とともにあり、彼の大切な仲間でもあった骨喰。
信長はその骨喰を人質に取り、自らの命を救うことを三日月に強要します。
しかし三日月は「歴史を守る」という自らの使命と信念において信長を説得するのです。

…めちゃめちゃ重要だし、熱いシーンではないですか…!

文章にできない情報は分析できないテキストマイニングですが、シナリオの「熱い」ポイントが押さえられました…うわー…ちょっと興奮しました。

…というわけで、今回の映画シナリオ分析では、
キャラのセリフやナレーションに頻出する単語は、物語の中でも大きな影響を持つキーワードであると見なすことは可能である。
という結論を出して終わりたいと思います。


■今回のまとめ

ここまで読んでいただきありがとうございました。
「映画 刀剣乱舞-継承-」は、アクションシーンも大きな見どころの一つですが、それは文章データに反映できません。
ですので、どのような結果が導き出されるか戦々恐々としながらまとめていたのですが、予想外にいい感じにまとまった気が…する……

「映画 刀剣乱舞-継承-」は、歴史ミステリとしての要素が強く、また終盤のクライマックスに会話劇があったゆえ、テキストマイニングの対象とするには案外適していたかもしれないなぁ…と思いました。

ただ、キーパーソンである三日月のセリフがうまく分析できなかった部分がある(※後述の「おまけ①」としてまとめました)ので、
今月末に公開予定の「活撃 刀剣乱舞」分析時には改善できると良いなぁと思っています。

この文章は将来的に同人誌にまとめて発行したいと目論んでいるのですが、
その際には、三日月はじめ刀剣男士たちのセリフにもっと踏み込んだ言及ができるといいですね。がんばります。

さて、2021年には「映画 刀剣乱舞」の新作が公開予定となっていますね。
新作は本作の続編?それとも完全新作でしょうか?
監督は引き続き耶雲哉治さん?脚本は小林靖子さん?それとも別の方が参戦するのでしょうか?
筆者の推し男士は小狐丸と山姥切長義なのですが、この二振りが出演する可能性はあるでしょうか…?ワンチャンあるといいなぁ…

…いずれにしても楽しみでなりません。
新情報と、そして予告ムービーを心待ちにしています。

頑張って書きましたので、一言でも感想いただけると嬉しいです!マシュマロを開放しています!


■おまけ①:主人公・三日月宗近のセリフにおける特徴的な言葉とは?

分析データを作る時、「誰」によるセリフかという情報も付加しています。
それを元に「Jaccard係数ランキング」…つまり「三日月宗近の特徴語ランキング」を作ることができたので結果を示します。

8映画_三日月-頻出語句_200906

三日月は作中で5回も「歴史」という言葉を発しているのですが、
それが結果に引っかからなかったのが興味深いです。
三日月が「歴史」という言葉を使ったのは、非常にピンポイントな状況(三日月が信長に「真実の歴史」を語るシーン)でした。これは筆者の想像なのですが、限られた状況下でのみ現れる単語はKH Coderでは「特徴語」から除外されやすい傾向にあるのかもしれません。

そういえば「正しい歴史」という言い回しは、刀剣男士たちではなく信長のセリフの中で最も多く出てきました。
自分が生き残って天下を獲ることが正しい歴史であるべきだ。
…信長はそんな思いを強く持っていたし、かつ明確に言葉にもしたのかな、なんて思いました。


■おまけ②:「殺す」ではなく「死なせる」

この映画における刀剣男士の任務は「織田信長を正しく死なせて歴史を守る」なのですが、刀剣男士たちが一貫して「死なせる」という単語を使っているのが面白いなぁと。

「暗殺」
「やる(殺る)」
「殺す」

…という言葉も使われていますが、今回の分析では

「主の命・任務の目的としての「暗殺」」
「信長が光秀をやる(殺る)」
「時間遡行軍が光秀を殺す」

…という文脈でのみ使用されていたことがわかりました。
「刀剣男士が歴史上の人物を」という言い回しの時は一貫して「死なせる」なのです。

勝竜寺城付近で、信長生存を知らせに走ったと思われる兵を見つけた長谷部は「潰す」という言葉を使っていましたが、これ、とっても良いなぁと思っています。もし「殺す」と発していたなら長谷部の悪役感がマシマシであっただろうな…。見事なワードチョイスだと思いました。


■次回予告

「刀剣乱舞×テキストマイニング」はまだ続く予定です。
せっかくだからいろいろやってみたい。ただいま以下の2作品について分析中です。

①アニメ「活撃 刀剣乱舞」&コミック版「活撃 刀剣乱舞」×テキストマイニング(仮)

「活撃」の和泉守兼定と「活コミ」の和泉守兼定は、物語の最後に全く違う結論にたどり着きます。
同じストーリーのはずなのにまったく違うキャラクターが確立したように見える。
どういうことだろう?これって統計的に説明できたりしないかな?
…というわけで「活撃 刀剣乱舞」の全セリフをデータ化し、
第二部隊の6振りの刀剣男士(和泉守・堀川・陸奥守・薬研・蜻蛉切・鶴丸)の性格・言動の特徴と、物語内での心の動きについて考察します。

【10/11 更新】
「活撃 刀剣乱舞」の第2部隊の全セリフをテキストマイニングを使って分析した。~前編~
https://note.com/soubi422/n/n03ffe3ba6b6a


②「ミュージカル 刀剣乱舞」シリーズ×テキストマイニング(仮)

「刀ミュ」の幕が開いてから5年が経過しました。
刀ミュで唄われてきた歌にはどんな特徴があるだろう?
歌われてきた言葉は5年間でどのように変化してきたんだろう?
…ということを歌詞論も踏まえて分析しています。
資料として購入した本ではユーミンの歌詞が大きく取り上げられていたのですが、
まさかユーミンが「刀剣乱舞-ONLINE-」の主題歌を担当することになるとは思いませんでした…

…いずれも今回とはまったく違う方向性の調査になる予定ですので、まとめ終わるのが楽しみです。


「ミュージカル 刀剣乱舞」シリーズに関しては、テキストマイニングが絡まない考察記事も書いています。

③歌合 乱舞狂乱 2019(および「小狐幻影抄」)の物語構造について~刀ミュの歴史・古典芸能との比較考察~(仮)

昨年末に上演された「歌合 乱舞狂乱 2019」と「小狐幻影抄」で、
それまで断片的に得てきた知識と情動が一気に貫かれる衝撃的な鑑賞体験をしてしまい、
きちんと文章にまとめてみようと1月頃から試行錯誤を繰り返しています…
終わらなすぎて(というか調べものの手を広げすぎて)頭を抱えているのですが、年末のガラコンまでには書き上げたいな…これもnoteで公開予定です。

■最後に

分析方法の着想を授けてくださり、また、本文での紹介に対してもご快諾くださいました「ぷさいあにま」の皆様、改めて感謝申し上げます。
下読みをしてくれたR氏、的確なアドバイスをありがとうございました。
ここまで読んでくださったあなた様、本当にありがとうございました。

■参考文献・参考URL

・DMM GAMES,「刀剣乱舞-ONLINE-」,2020(http://games.dmm.com/detail/tohken/)
・MADO☆MAGI Statistical Analysis:愛よ!!!!(2017,ぷさいあにま,[自費出版])
・AI drops 編集部,「データマイニングとは?できること、準備と手順、分析方法・活用事例など」,2020(https://www.bigdata-navi.com/aidrops/2272/)
・社会調査のための計量テキスト分析【第2版】内容分析の継承と発展を目指して(2020,樋口耕一,株式会社ナカニシヤ出版)
・日本刀大百科事典(1993,福永酔剣,雄山閣出版)
・morita,「KHcoder 23. 共起ネットワーク(共起パターンの変化を探る)」,2019(https://data-analyzer.net/2019/07/30/khcoder20-kyoki-network-4/)
・morita,「Coding(KHcoder) 5 Pearson rsd」,2019(https://data-analyzer.net/2019/06/24/coding-khcoder-5/)
・樋口耕一,「言語研究の分野における KH Coder 活用の可能性」,2017(https://www.jstage.jst.go.jp/article/mathling/31/1/31_36/_pdf/-char/ja)


いいなと思ったら応援しよう!