名取さなの雑談の無軌道さの可視化【夏休みの自由研究】
Abstract
・名取さなの無軌道雑談の軌道を可視化した
・滑らかな話題遷移にした場合はどうなるか求めた
・名取さなの無軌道雑談が無軌道であることをデータから再確認した
1.Introduction
Vtuberの雑談などにおいて、話題を事前設定していないため話題の遷移を予測しづらい状態の雑談は無軌道雑談と呼ばれる。
この無軌道雑談をメインコンテンツに掲げるVtuber名取さな話題遷移に関する研究がされている[1]。
本研究では話題間の相関をword2vec[2]によってベクトル化したものを用い、雑談軌道の可視化手法を提案した。また、実際に無軌道雑談配信の軌道を可視化及び評価した。
2.先行研究
word2vec
word2vec[2]は、大規模なデータセットから単語のベクトル表現を計算するためのモデル構造である。これらのベクトルは構文的および意味的な単語類似性を測定するために効果的である。
word2vecの日本語学習済みモデルとしてchiVe[3]がある。これは最大
3,197,456の語彙を持ち、単語は300次元のベクトルであらわされる。
chiVeを用いたword2vecでは['ニコニコ動画', 'ユーチューブ', 'ツイッター', 'ラーメン', '東京', '音楽']の単語について次の図のような相関係数を与える。
ユーチューブとニコニコ動画の相関係数が高く、ツイッターと東京の相関係数が低いなど、相関係数と直感がそこまでかけ離れていないことがうかがえる。
話題間の相関
[1]の研究では、話題間の相関を評価してきた。5個までの単語を話題を代表する語として抽出し、話題間で単語同士の相関を調べる。そのうち最も相関が高い組み合わせを話題間の相関としている。
3.提案手法
この章では、雑談軌道の定義および雑談軌道の可視化手法を提案する。
また提案手法における相関とはchiveを用いたword2vecによる相関係数のことであり、chiveは最も語彙の多いv1.2 mc5を用いた。
軌道の可視化手法
本研究では、雑談軌道を次のように定義する。
定義1
雑談開始の時刻を$${start}$$、雑談終了の時刻を$${end}$$とする。
時刻$${t}$$の話題を$${w(t)}$$とする。
任意の時刻$${i}$$について$${w(i)}$$と$${w(end)}$$の相関を評価値$${corr(i)}$$とする。
評価値$${corr(i)}$$を$${corr(start)}$$から$${corr(end)}$$までつないだものを雑談軌道と定義する。
ここで、理想的な雑談軌道を次のように定義する。
定義2
$${corr(start)}$$と$${corr(end)}$$を結んだ直線$${L}$$上にすべての$${corr(i)}$$が存在している場合を理想的な軌道と定義する。この時、$${corr(i)}$$と$${corr(i+1)}$$の差が小さく、$${corr(i)}$$が直線$${L}$$に近いような軌道をより理想的な軌道であるとする。
我々は、話題$${w(t)}$$を先行研究[1]のように最大5個の単語の代表する語であらわし、代表する語同士の相関のうち最も相関が高い組み合わせを$${corr(i)}$$としている。
例えば、話題iと話題endが次の語であらわされる時、図のように0.241が$${corr(i)}$$として選択される。
このように計算して名取さな最新の無軌道雑談[4]から話題を抽出し評価値$${corr(i)}$$を計算しグラフにプロットしたものが次の図である。ちなみに、無軌道雑談かどうかは名取さながTwitter、配信タイトル、配信サムネで言及しているかどうかを基準としている。
また、[4]から抽出した話題をまとめたcsvファイルの一部は次の図のようになっており、話題抽出方法は[1]のようにタイムスタンプを参考に人力で行っているため、恣意的な抽出を否定する術はない。
雑談軌道の評価
ここまでで雑談軌道を可視化したが、雑談軌道を評価するために理想に近い雑談軌道を計算する。
開始と終了の話題は実際の配信と同じとし、定義2に沿うような話題遷移を求める。つまり、$${w(i+1)}$$は$${w(i)}$$と相関が高い単語のうち、最も$${corr(i+1)}$$が大きくなるような$${w(i+1)}$$を選択すればよい。
この方法を用いて得られた理想に近い雑談軌道を有する話題遷移は
'喜び'→'喜び合う'→'分かち合う'→'励まし合う'→'連帯感'→'チームワーク' →チームメンバー'→'メンバー'→'全員'
が例として挙げられる。これを先ほどのグラフに重ねてプロットする。
理想に近い雑談軌道の例は、理想的な雑談軌道に近いことが確認できる。また、名取さなの無軌道雑談が理想に近い例に比べて不規則なグラフとなっていることからも、雑談軌道が無軌道であるといえる。
また、[1]のように話題間の相関係数のヒストグラムを作成した 。
最頻値は0.25~0.3の領域で、これは「ニコニコ動画と音楽」の相関より低いが「ツイッターと音楽」の相関よりは高い。
4.Conclusion
本研究では、雑談軌道を定義し雑談軌道を可視化する手法を提案した。理想に近い雑談軌道を持つ話題遷移を計算し、提案手法を用いて名取さなの無軌道雑談とともに可視化した。可視化し比較したことにより、名取さなの無軌道雑談は雑談軌道の評価においても無軌道であることを確認できた。
また、最新の無軌道雑談[4]において多くの話題遷移の相関係数は「ツイッターと音楽」以上「ニコニコ動画と音楽」以下であった。音楽といえば…
音楽と言えば、[4]の名取さなは2024年9月19日にEX THEATER ROPPONGIで自身初の音楽ライブ名取さな 1st Live「サナトリック・ウェーブ」[5]を開催するという。昼夜2公演の会場チケットは完売しているが配信チケット[6]を購入することでライブを鑑賞することができる。ライブは生バンド編成で行われているとのこともあり、非常に楽しみな限りである。
Referrence
[1] みくじ.(2023). 名取さなの無軌道雑談はどのくらい無軌道なのか URL:https://note.com/0394v/n/n8403609e64fd
[2] Mikolov, T. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
[3]真鍋陽俊, 岡照晃, 海川祥毅, 髙岡一馬, 内田佳孝, & 浅原正幸. (2019). 複数粒度の分割結果に基づく日本語単語分散表現. 言語処理学会第 25 回年次大会発表論文集, 1407-1410.
[4]さなちゃんねる. (2024). 37万人記念。みなさんとの、対話。URL:https://youtu.be/me1_i3XRXqQ
[5]名取さな. 名取さな 1st Live「サナトリック・ウェーブ」
URL:https://bakutan.natorisana.com/e/natorisana-1stlive
[6]Z-aN. 名取さな 1st Live「サナトリック・ウェーブ」配信チケット
URL:https://www.zan-live.com/ja/live/detail/10450
Appendices
提案手法のコードをGitHubに残す。
話題抽出したcsvファイルは付属しない。
GitHub - omikujiv/zatsudan_kashika