見出し画像

ヨルシカの歌詞データ分析 KH Coderを用いたテキストマイニング入門

大量の言語データから何か特徴を見つけたいという時に有効な手法としてテキストマイニングがある。最近はpythonでコードを書くやり方のほうが流行っているが、プログラミングができない人でも簡単に本格的な分析ができるKH Coderというソフトウェアがある。今回はこれを用いてヨルシカの歌詞を分析しアルバムごとの特徴を見出していきたい。また、自分で歌詞分析を行ってみたいと考えている読者のために分析の上で注意すべき設定やテキストマイニングによる分析の課題についても言及していく。

今回分析するのはヨルシカの歌詞だ。ヨルシカは未だにアルバム単位でひとつのコンセプトを貫くという作り方を続けている現代では珍しいタイプのアーティストなので、アルバムごとの特徴や関係性を数学的に分析してみることを目指す。私は結構ヨルシカを聴き込んでいるのでデータを見る以前に分かっていることも多いのだが、今回はあえてあまりよく知らない体でどのようにデータを読み解いていくかという試行錯誤の過程をたどっていこうと思う。結果だけ知りたい人はまとめの章まで飛んでほしい。

本記事ではKH Coderの基本操作について説明を行わないが、公式から夏目漱石の『こころ』を用いたチュートリアルやその他たくさんの日本語情報があるので使う際には調べてみてほしい。



ヨルシカの歌詞の特徴

アルバムごとの比較に入る前に、まずヨルシカというアーティストの特徴を分析していく。分析対象としたのは『夏草が邪魔をする』『負け犬にアンコールはいらない』『だから僕は音楽を辞めた』『エルマ』『盗作』『創作』『幻燈』の収録曲とアルバムに収録されていない「テレパス」「斜陽」「月光浴」「晴る」「ルバート」だ。

まず、ヨルシカ楽曲全体の抽出語リストを作成する。単語の出現回数を単純に集計したものが以下の画像である。

画像1 ヨルシカ楽曲全体の単語出現頻度

これをこのまま分析に使ってもよいのだが、もう少し工夫ができる。例えば、「ない」「する」「もう」「ずっと」「どう」といった言葉はそれ自体の回数を見たところで特に何も見えてこない。「ない」は他の単語に比べて群を抜いて多く登場するが、これは日本語の運用自体がそうであってヨルシカ楽曲以外でも多く登場するかもしれない。今知りたいのは、4位に「夏」、8位に「夜」が出ているというようなヨルシカを代表していそうな情報だ。(この話は分析者向けなので、実際にやらない人は次の見出しまで読み飛ばしてもらって問題ない)

品詞のフィルタリングを行う

そこで、分析に使いにくい品詞をフィルタリングしてなくしてしまう。複雑な設定がいるように思うかもしれないが、KH Coderではファイル出力前の結果のところ(画像2)では既にそれらが弾かれている。

画像2 ヨルシカ楽曲の抽出語リスト

具体的には、フィルタ設定をクリックすると画像3のウィンドウが表示される。ここでチェックボックスがついていないものは画像2には含まれていない。この「名詞B」や「動詞B」といったBがついているものはその品詞のうちひらがなだけで構成される語があたる。否定助動詞や形容詞(非自立)を含め、日本語のどのテキストにもよく表れるような語は最初から省いた状態で結果が出力されている(カウント自体はしている)。便利な反面、意味のありそうな単語も取りこぼす場合があるので予めデータにそうした単語があると分かっているのであれば適切な処理が必要だ。また、論文等に用いる際にはこのような処理が行われていることを理解して書く必要がある。

画像3 品詞別フィルタ機能

結果を「Excel出力」からファイルにする場合、画像4の「頻出150語」を選んだ場合はフィルタが適用されるが、「1列」「品詞別」を選んだ際にはチェックがついていない品詞も反映される。

画像4 抽出語リストの形式

頻出語の分析 名詞では圧倒的に多い「夏」「花」「夜」

適切なフィルタリングをしたところで、頻出語150語を見ていこう。結果は画像5の通りである。

画像5 ヨルシカ楽曲の頻出語150

全体を通して、「夏」「夜」「花」がモチーフとして使われている。多くの人にとって直感通りの結果だと思う。「ヨルシカ」「ずっと真夜中でいいのに。」「YOASOBI」が好きな人のことを「夜好性」と呼ぶことがあるが、ヨルシカは統計的に見ても「夜」が多く登場するようだ。しかし、MVでは昼のシーンが多いことを考えるとどのような文脈で登場しているかには注意を払う必要があるだろう。

それ以外には「想い出」「思い出」「人生」といった単語から過去を振り返るような歌であることが推察されるが、正直なところ大したことはわからない。そこで、もう少し詳しく見るために品詞別の表(画像6)を見てみよう。

画像6 ヨルシカの品詞別頻出語

品詞を分けないときは名詞に特徴的なものがみられたが、それ以外ではどうだろうか。形容詞をみると、上位3つは「無い」「遠い」「苦しい」だ。このデータだけ見ても悲観的で後ろ向きな歌ばかりという感じがする。「遠い」「深い」といった距離を表す単語から、疎外感や手の届かなさを歌っているのかもしれない。動詞の特徴は、強いて言うならば身体の動きが少ないということだろうか。「踊る」「歩く」という例外はあるが、「忘れる」「見る」「笑う」「待つ」など大きな動作ではない語が多い。

表を見て気づいた人も多いと思うが、品詞の取り扱いは難しい。自動で行っている単語の判別が間違っていることもあるし、「副詞可能」が実際には「副詞」ではなく「副詞の可能性がある名詞」であるように自然言語処理に詳しくないと勘違いが起こるような分類もある。KH Coderは言語学ではなく社会科学系の内容分析を念頭に作られたツールなので、使う人も言語の取り扱いに精通しているわけではないだろう。厳密な取り扱いをする必要がある際には、単語の分類(形態素解析)に使用した辞書(デフォルトではChasenになっている。今回はMeCabを使用した)の定義を参照するといい。もっとも、わからなければざっくりとした品詞分類に直して扱うか品詞別の分類をしないというのもありだろう。

MeCabの品詞定義

共起ネットワーク分析から見る「花」の意味

正直、単語の登場回数を数えてもわかることは少ない。そこで、単語同士の関係性に注目してみよう。細かい仕組みの説明は省くが、どの単語とどの単語が一緒に現れることが多いかということを表している。結果は画像7のとおりだ。

画像7 ヨルシカ楽曲に登場する単語の共起ネットワーク サブグラフ検出(modularity)

同じ色で示される群はそれぞれ一緒に登場する頻度が高いのだが、結ばれているものはヨルシカの歌詞でなくとも関連する語であることが多い。「言葉」は「書く」ことや「詩」「心」と関連するし、「花」は「咲く」ものだ。「夏」が「笑う」「見る」「顔」「知る」と結びつくのは、夏を誰かと過ごしている、あるいは過ごした思い出を歌っているのだろう。「大人」と「遠い」が近いのも大人になりきれない青年期を描いているからある意味当然だ。

面白いところがあるとすれば、「花」と「忘れる」が近いことだ。これは、「花」がもつ性質の中でも「美しさ」よりも咲いているのは一時期でいずれ散ってしまう時間の限定性の象徴として用いられていることを表しているのではないだろうか。いくつか引用しながら検討してみよう。

忘れてしまう前に花描け
今日も一人また夜が来て
誰もいない部屋で眠る
その温もり、僕に残して

ヨルシカ「花人局」

引用した部分だけでは歌詞の意味するところがわかりにくいのだが、何度も登場する「僕に花もたせ」というフレーズが解釈のヒントになる。恋人が自分を残して去った歌において「花もたせ(タイトルの「花人局」とは表記が違う)」ということは、恋人は花を残して(花を持たせて)去ったのだろう。その「花」を「描け」ということは、その花がまだ枯れていない—恋人が去ってから間もない—ことを示している。その花が枯れてなくなってしまえば、恋人の不在は一時的な外出ではなく別れであったことが確定し、恋人とのつながりもなくなってしまう。だから、「花」を「描く」ことによって保存しようとするのである。この曲においては、「花」は時間の限定性を表していると言っていいだろう。

はらり、僕らもう声も忘れて
瞬きさえ億劫
花見は僕らだけ
散るなまだ、春吹雪
あともう少しだけ
もう数えられるだけ

あと花二つだけ
もう花一つだけ

ただ葉が残るだけ、
はらり今、春仕舞い

ヨルシカ「春泥棒」

「春泥棒」の歌詞では、「忘れる」が「記憶が失われる」意味で使われているわけではないが、文脈から「花」が散って春が終わる時間の限定性を表現していることは読み取れる。他にも、「褪せない花」といったフレーズは様々な曲に登場する。

余談だが、「花」と「忘れる」がごく近距離にある曲は引用した2曲のみである。他の曲では一緒に登場することもあるがすぐ近くにあるわけではない。(集計自体は一曲の中に同時に現れるか(共起するか)を見ているので、その単位で見れば同時に現れるものはもっとある)

膨大な楽曲からこの2曲を探し当てるうえでもKH Coderは活躍した。というのも画像2の抽出語リストの画面で各単語をクリックすると実際にどの箇所で登場したかが表示される(画像8)。もちろん複数の単語が同時に近くに存在する場合を調べることも可能だ。このResultをクリックすれば何の曲であったかも確認できる。膨大なテキストデータを扱う際には便利な機能だ。

画像8 「花」が実際に登場する場所

もう一つ、共起ネットワーク分析でできることがある。それは、中心性表示にしてみることだ。

画像9 ヨルシカ楽曲の共起ネットワーク(媒介中心性)

この図からわかるのは、単語と単語を結びつけるハブとなっている単語だ。中心性を表す指標にはいくつかあるが、KH Coderで採用されているのは媒介中心性(ある2点を結ぶ最短経路の中にその点がどれくらいの割合で入っているか)である。画像9によれば、「言葉」が多くの単語を結びつけている。

注目したいのは、「夏」と「花」は中心性が高いのに対して「夜」は低いということだ。登場回数でいえばほぼ変わらないはずの単語に、なぜこのような違いが現れるのか。それは、「夜」はあくまで付随する状況であってメッセージの本質ではなく、歌いたいのは「夏」や「花」—もっといえば「夏(の想い出)」や「花(時間の限定性、儚さ)」—だからではないだろうか。そうだとすれば、「夜好性」というネーミングは本質的ではないかもしれない。「ずっと真夜中でいいのに。」「YOASOBI」の歌詞分析と組み合わせると面白い結果が得られるだろう。

アルバム間の比較

さて、ここからはアルバムごとの特徴比較を行おう。まずは、分析用のデータで結びつけたアルバム名を変数とした分析を行っていく。注意点として、アルバムに収録されていない楽曲は「ー」としている。

対応分析に表れるヨルシカの一貫性

対応分析は、データの特徴を平面上に示しその関係性を視覚的に表現する方法だ。結果は画像10の通りである。

画像10 対応分析

この図を見る上で注意すべきことは、2つの軸が何を示しているかはわからないということだ。見るべきなのは互いの位置関係である。偏りの小さいものは原点近くに、大きいものは遠くに配置され、関連が近いものは原点から同一方向に示される性質がある。総合して、近い位置にあるアルバムは似ていると言っていいだろう。

そう考えると、『負け犬にアンコールはいらない』と『盗作』、『エルマ』と『夏草が邪魔をする』が似ていて、『夏草が邪魔をする』と『だから僕は音楽を辞めた』は偏りがおおきいものの性質は近い。『創作』はどれとも似ておらず、『幻燈』は独立しているがアルバム未収録曲とやや近い。

この結果を見て真っ先に思いついたのはジャケットの類似である。もはや歌詞は全く関係ないが、騙されたと思って一回見てほしい。

『負け犬にアンコールはいらない』と『盗作』は、時期が離れているにも関わらず目をモチーフとして大きく使っている。

『エルマ』と『夏草が邪魔をする』はともに植物が大部分を占める。

『だから僕は音楽を辞めた』は街角の風景で

『幻燈』は青い油絵で

『創作』はどれとも似ていない白地に文字だけのジャケットだ。

冗談はこのくらいにしておこう。

『負け犬にアンコールはいらない』と『盗作』が近いのは、ともに「爆弾魔」が収録されているからだろう。一字一句同じ歌詞の曲がはいっているのだから、影響は大きいはずだ。試しに両方のアルバムから「爆弾魔」を除いて分析すると2つのアルバムの距離はそれほど近くない。

画像11 「爆弾魔」を削除したデータで対応分析

だが、同じ曲を再び収録しようと思うくらいにはコンセプトは近いのだろう。原点から見ると2つとも概ね同一方向だ。ヨルシカにおいて一度アルバムに収録された楽曲が別のアルバムに収録されるのはこの「爆弾魔」1曲のみである。

偏りという観点から見ると、データは『夏草が邪魔をする』と『負け犬にアンコールはいらない』が原点に近く、『だから僕は音楽を辞めた』『盗作』『幻燈』『創作』がそれぞれ異なる性質で尖っていることを示している。初期2作で提示された「夏」「空」「雲」「花」といったモチーフや「いつか」「花」「大人」が示す流れていく時間がすべての作品に通底しており、「音楽」と「人生」について歌ったのが『だから僕は音楽を辞めた』、「愛」や「全部」が「足りる(足りない)」「満たす(満たされない)」「教える(教えて)」ことを問題としたのが『盗作』といったようにその後のアルバムではよりその時のテーマに合わせて一歩踏み込んだ表現をしていることが表れているのだろう。一貫性とリスナーを飽きさせない作品同士の差別化が同時に成功していることを示す結果だ。

共起ネットワーク分析からわかる「統一感」の形

先程ヨルシカ楽曲全体で行った共起ネットワーク分析は、実は単語同士だけでなく単語と外部変数(今回はアルバム名)でも行うことができる。これにより、どの単語を媒介としてアルバム同士が関連しているかを確かめることができる。

画像12 単語-アルバムの共起ネットワーク

対応分析では「爆弾魔」が2アルバムに収録されていることにより問題が起きた。共起ネットワーク分析では、『負け犬にアンコールはいらない』『盗作』はともに「匂い」「生きる」が共通しているが、これは「爆弾魔」を削除したデータでも変わらなかった。そのため、「爆弾魔」を削除していないデータの結果を画像12として掲載している。

結論から言えば、ヨルシカに関しては共起ネットワーク分析はあまり意味をなさなかった。『エルマ』は『だから僕は音楽を辞めた』の続きで、前作の主人公エイミーが残した音楽や手紙に影響を受けたエルマが同じように旅をして曲を書く物語なのだから、「人生」「書く」でつながっているのは当然のことだ。「少し」「先」「全部」といった言葉は特段意味を持つものではないから、これについて考えても仕方がない。

そこで、アルバムごとに共起ネットワーク分析の結果を見ていく。まずは初期の2作『夏草が邪魔をする』と『負け犬にアンコールはいらない』だ。

画像13 『夏草が邪魔をする』共起ネットワーク
画像14 『負け犬にアンコールはいらない』共起ネットワーク

ひと目見てわかるとおり、独立した島が点在している。それぞれの島は1曲の歌詞と対応する。「サイダー」「夕立」「退屈」がある島はどう考えても「あの夏に咲け」だし、「ニーチェ」「フロイト」「先生」がある島は「ヒッチコック」だ。

それが、『だから僕は音楽を辞めた』『エルマ』『盗作』では単語が緩やかに広くつながるようになる。

画像15『だから僕は音楽を辞めた』共起ネットワーク
画像16『エルマ』共起ネットワーク
画像17『盗作』共起ネットワーク

このような繋がり方は、1つの単語が様々な文脈で現れるのではなく、同じような文脈の中に様々な単語が現れていることに由来すると考えられる。この3作の、アルバム1枚がひとつのストーリーになるように作られているという特徴が表れたのだろう。

『創作』では再び初期作のように曲ごとの島に分かれる。

画像18 『創作』共起ネットワーク

『創作』は『盗作』と対になる作品のようだが、実はこれだけ扱いがアルバムではなく「EP」であり楽曲数が少ない。また、タイアップ曲も含まれるので前3作に比べれば一貫性は落ちるのだろう。

そして、『幻燈』では緩く広く繋がった島同士がさらに繋がっている。

画像19『幻燈』共起ネットワーク

『幻燈』はn-bunaが考えた1つのストーリーに合わせてすべての楽曲を書いたのではなく、それぞれの楽曲が古典文学作品をテーマとしていてそれをn-bunaがあるアルバムにまとめ上げている。『だから僕は音楽を辞めた』『エルマ』『盗作』が小説だとしたら、『幻燈』は雑誌だ。異なるストーリーを1つの世界観に「編集」した結果、1曲単位での一貫性とアルバム全体での一貫性がそれぞれにある作品に仕上がったことが表れていると考えられる。

分析からわかったヨルシカの特徴まとめ

ここまでの分析結果をまとめていく。

「花」は時間の限定性の象徴として用いられている

頻出語をみると、「夏」「花」「夜」の登場回数が非常に多いのが特徴である。ただし、中心性指標をみると、「夏」と「花」は高いが「夜」は低い。このことから、「夏」と「花」は様々な文脈で登場し歌の本質に近い部分にあるが、「夜」は状況の描写など特定の場面でしか登場せず他2単語ほど重要な単語ではないのかもしれない。

また、「花」は「忘れる」とともに表れることが多い。このことから、n-bunaは「花」のもつ「時間の限定性」や「儚さ」の側面に注目してモチーフに採用することが多いのではないかと考えられる。

初期作から現在に至るまでの一貫性が強い

対応分析の結果、原点近くに初期の2作『夏草が邪魔をする』『負け犬にアンコールはいらない』が、やや外に『エルマ』が、原点から遠くそれぞれ異なる方向に『だから僕は音楽を辞めた』『盗作』『創作』『幻燈』が表れた。このことは、アルバムごとに「音楽」と「人生」、「満たされない」ことなど異なるテーマを描いていく中で、初期2作から多用している「夏」や「花」といったモチーフ、「いつか」「大人」のような時間への注目など一貫している部分も多いことを示している。

アルバムごとの一貫性が共起ネットワークに表れる

画像13-19のアルバムごとの共起ネットワーク分析では、単語のつながりが1曲ごとに完結している『夏草が邪魔をする』『負け犬にアンコールはいらない』『創作』、ゆるやかに広く繋がった島がいくつか存在する『だから僕は音楽を辞めた』『エルマ』『盗作』、ゆるやかに広く繋がった島同士がさらに繋がっている『幻燈』の3パターンに分けられることがわかった。曲ごとに古典文学作品をテーマとしている『幻燈』が、n-bunaの考えたストーリーに基づく3作品よりも単語の繋がりが広いのは、むしろ異なるストーリーを、雑誌を「編集」するように1つのテーマでつなぎ合わせたがゆえのものであり、アルバムの一貫性の質的な違いについても表現できた。

テキストマイニングによる歌詞分析はどのような時に有用か?

最後に、この分析を例にテキストマイニングによる歌詞分析の可能性と課題について考えたい。

出てくる結果は「当たり前」なことが多い

正直なところ、ヨルシカを聴いたことがある人からしたらどれも直観に合う、言ってしまえば予想できる驚きのない結果だったと思う。結局のところテキストマイニングは登場回数を数えたり距離を測ったりしているだけなので、なんとなく全体像が分かるくらいのデータに適用しても目新しい結果を得ることは難しい。単一アーティストの歌詞分析ではあまり効果を発揮しないのだ。

仮説検証ではなく、仮説探索のために利用する

では、どのように活用していけばいいのだろうか。1つは、仮説を立てるためには有用だ。

例えば、この記事ではヨルシカが「花」を「時間の限定性」のモチーフとして扱っているのではないかという仮説を挙げた。実際にどのような文脈で「花」が使われているか確かめたところ、仮説を支持する表現が見られた。このように、あえてデータからみることで偏った印象や先入観を排して思いもよらないところに解釈するべき要素を見つけることができる可能性はある。最終的に仮説を確かめるためには解釈学的な分析を行うことにして、計量分析の結果はそれを助けるために使うというのは一つの方法だ。

複数のアーティストにまたがった分析を行う

計量分析が真の威力を発揮するのは、人間が頭で考えてもよくわからないほどの大量のデータを前にした時である。それはテキストマイニングも例に漏れない。

例えば、過去70年の新聞記事を読み込ませて「大学生」という単語がどのような文脈で登場するかという分析はテキストマイニングだからこそ為せる技だ。人間に70年×365日×2(朝刊と夕刊)を読み切ることは到底不可能だ。しかし、コンピュータには(さすがに時間はかかるだろうが)可能な処理である。おそらく、「東大全共闘」のような政治運動にのめり込んでいた時期からバブルの華やかなキャンパスライフ、就職氷河期に至るまでダイナミックな変遷がみられることだろう。さらにいえば、「大学生」はまだなんとなく結果の予想がつくが、例えば「読書」に置き換えたらどうだろう。こうした予想もつかない問いであるほどテキストマイニングが最も採用すべき手法になる。

では、音楽ではどのような分析が可能だろうか。歌詞を扱ったものでは、見田宗介という社会学者の分析が最も有名である。

見田は『近代日本の心情の歴史 —流行歌の社会心理学』という著作で1868年から1963年までの流行歌451曲の分析を行っている。

この本ではモチーフとして使われている語を「怒り」「慕情」「孤独」といった結びついている感情ごとに分類し、それらの感情がどのように表現されてきたかという歴史を追っている。このように単語を分類してコード化する分析はKH Coderも想定していて、ルールさえ明記してあげればあとは勝手に分類してくれる。(今回はやらなかったが、「KH Coder コーディング」で検索すればやり方はすぐにわかる)

ただ、これを読んで現代のJPOPでも同じ分析をやったらいいじゃないかというのはやや早計だ。何かしらの答えは得られるだろうが、それが面白くなるとは限らない。見田が分析した時代は音楽シーンが小さく「流行歌といえばこれ」というものがあったかもしれないが、現代では好きな音楽は細分化しすぎていてチャートインしていても知らないアーティストがいるのが皆当たり前になっている。もちろんそれでも時代を象徴するような特徴語が出てくる可能性はあるが、細分化した趣味の多様性を論じるほうが面白くなるかもしれない。

現実的な案として、似たアーティストや正反対と言われるアーティスト同士を比較してみるというのは面白いだろう。例えば、「同じ出身地のアーティストが書く歌詞には共通点がみられるのか」といった具合だ。分析の途中で触れたファンを「夜好性」としてくくる「ヨルシカ」「ずっと真夜中でいいのに。」「YOASOBI」の比較分析については私も今後やってみようと思う。

結局大事なのはデータの下処理と問いの立て方

特に歌詞のような芸術作品の分析においてテキストマイニングという手法を採用するのは、分析者の主観から離れてできるかぎり客観的な分析に近づけたいという思いからである。しかし、この記事でもそうなっているように結局のところ結果の解釈はやはり分析者の主観に委ねられる。

そのことを前提としながら少しでも確かな分析にしていくために大事なのは、地道なデータの下処理だ。今回扱ったヨルシカは歌詞がほぼ全編日本語で造語も少ないから分析が楽だったが、アーティストによっては英語交じりの日本語だったり、表記にこだわりがあったりするだろう。コンピュータが上手く単語を分類してくれないときには強制的に抽出するよう単語登録してやる必要がある、また、近年ではアルバムを前提とせず単発のシングルを出し続けるアーティストが多い。今回の分析では「爆弾魔」という曲が相当したように、同じ曲が違うアルバムに2度収録されているということもあるだろう。そうした場合に、どの曲とどの曲を1つのグループにまとめるか考えたり、アーティスト全体の分析とグループ間の比較ではデータを分けて全体の分析で同じ曲の歌詞が2回入らないようにしたりする必要がある。現実は決して分析しやすいような形になっていない。

そして、分析が面白くなるかどうかは問いの立て方にすべてかかっている。特に、これまで見てきた通り単一アーティストの分析においてテキストマイニングによって直感的に想像がつく以上のことがわかることは少ない。今の社会状況や自分の関心の中で何について考えたら面白いか、なぜただ読んで解釈するだけではなくコンピュータを使って計量的に分析するのかということを明確にしてこそ、興味深い結論を導き出すことができる。

テキストマイニングはすべてを解決する銀の弾丸ではないが、時に人間には想像もつかないような結果をもたらしてくれることもある。曖昧で主観的な解釈に客観的、科学的な視点をもたらしてくれるというメリットもある。もっと高度な分析もあるにはあるが、メディアの内容分析であればこの記事で扱った手法で十分に色々なことを検討することができるだろう。コンピュータさえあれば誰でも簡単にはじめられるので、上手に活用して面白い分析をする人が増えたら嬉しい。


いいなと思ったら応援しよう!