
名取さなの無軌道雑談はどのくらい無軌道なのか
abstract
Vtuber名取さなの無軌道雑談配信の無軌道っぷりを確かめたい
無軌道雑談とは雑談の内容(軌道)を決めてないために、話題があっちこっちに行くことだと思う。
話題間に関連性がない方が無軌道であると仮定する。
話題間の関連性は話題に関する単語同時の相関を調べる。

そのうち一番相関が強い物を話題間の関連性とする。

これを可視化することで、無軌道雑談の無軌道っぷりを確かめたい。
結果
名取さなの無軌道雑談は結構無軌道雑談であった。
※話題内の単語の抽出は配信のタイムスタンプコメントを参考に自分でおこなった。
名取さなの「ご愛顧感謝雑談」の話題遷移のネットワークはこんな感じ。

水色のノード「野球」「WBC」の話から配信が始まり、ピンクのノード「周年」で配信が終わっている。ノード間のエッジの数値がノード間の相関係数で、エッジの色はピンクに近い方が大きい。

そしてこれは、名取さなの「ご愛顧感謝雑談」の話題間の相関係数のヒストグラムである。相関係数は0~1で、大きい方が話題間につながりがあると言える。
話題間の相関係数が低いことが多いので、無軌道で得あると言えよう。
これを、青空文庫の「走れメロス」と、同日配信されていた月ノ美兎の無軌道雑談「好きにしゃべるアレ」と比較した。

走れメロスとの比較では、名取さなの配信の方がヒストグラムの山が左に寄っている。そのため、名取さなの配信の方が話題の遷移に相関がないと言える。

また、月ノ美兎の配信との比較では、山の位置に加えヒストグラムのピークの位置も大幅に異なる。したがって、名取さなの配信の方が話題の遷移に相関がないと言える。
比較対象のリンク
手法
どうやって上記の結果を求めたかという話。
配信から話題の抽出
無軌道雑談配信を話題と単語に分ける
下の例のようなタイムスタンプのコメントを参考にしながら、データを作成。

話題ごとに行を分けて、関連する単語をいくつか記述する。
下は例で19話題53単語。
後述する辞書に含まれていない単語を含めず、単語の重複も許さない。
野球,WBC,,,
BGM,アレンジ,,,
画面,リニューアル,レイアウト,,
サイリウム,制御,言論,統制,
テープ,バズーカ,落書き,,
楽曲,配信,開始,,
誕生日,イベント,プレゼント,,
フィギュア,アクリルキーホルダー,民意,,
漫画,,,,
スカート,丈,統一,衣装,
youtuber,ラジオ,,,
サンリオ,投票,キャラクター,,
オフィス,自動販売機,デスク,,
サービスエリア,パーキングエリア,刈谷,ハイウェイオアシス,下道
VR,,,,
創作,PC,マウス,,
思い出,月面,デート,,
AI,予定,ギャル,アイドル,
周年,,,,
言語モデル
Word2Vecという手法
word2vecは、単語を分散表現として表現することで、単語同士の意味的な関係を捉えることができます。例えば、「王」と「女王」、「国」や「国王」といった単語の関係性を、数学的に表現することができます。
そのなかでもchiveを使用
"chiVe" (チャイブ, Sudachi Vector) は、大規模コーパスと複数粒度分割に基づく日本語単語ベクトルです。
Skip-gramアルゴリズムを元に、word2vec (gensim) を使用して単語分散表現を構築しています。
学習には約1億のウェブページ文章を含む国立国語研究所の日本語ウェブコーパス(NWJC)を採用し、分かち書きにはワークスアプリケーションズの形態素解析器Sudachiを使用しています。
https://github.com/WorksApplications/chiVe


図のようにコサイン類似度を用いることで、単語同士の類似度を計算する
実装
https://github.com/omikujiv/mukidou_zatsudan_view
pythonでgensim, networkx, matplotlibで話題間ネットワークの可視化までした。
jupyterで動かしてたので、配布の取り回しはちょっと悪い


カラーマップはcoolというマップで水色が値が小さくて、ピンクが値が大きい。
エッジは相関が強ければピンクだし、ノードは時系列で水色からピンクに変化する。

話題間で強い相関とワードは以下
1行目
** 一番強い相関は('WBC', 'BGM') で相関は 0.1699234 **
2行目
** 一番強い相関は('アレンジ', 'レイアウト') で相関は 0.3467664 **
3行目
** 一番強い相関は('画面', '制御') で相関は 0.30462837 **
4行目
** 一番強い相関は('言論', '落書き') で相関は 0.21753722 **
5行目
** 一番強い相関は('テープ', '楽曲') で相関は 0.16668464 **
6行目
** 一番強い相関は('配信', 'イベント') で相関は 0.30481923 **
7行目
** 一番強い相関は('イベント', 'フィギュア') で相関は 0.23578197 **
8行目
** 一番強い相関は('フィギュア', '漫画') で相関は 0.3835644 **
9行目
** 一番強い相関は('漫画', '衣装') で相関は 0.2054728 **
10行目
** 一番強い相関は('衣装', 'ラジオ') で相関は 0.108084574 **
11行目
** 一番強い相関は('ラジオ', '投票') で相関は 0.23879777 **
12行目
** 一番強い相関は('サンリオ', '自動販売機') で相関は 0.21960261 **
13行目
** 一番強い相関は('自動販売機', 'サービスエリア') で相関は 0.4183163 **
14行目
** 一番強い相関は('ハイウェイオアシス', 'VR') で相関は 0.20470831 **
15行目
** 一番強い相関は('VR', 'PC') で相関は 0.26750565 **
16行目
** 一番強い相関は('創作', '思い出') で相関は 0.19047081 **
17行目
** 一番強い相関は('デート', 'ギャル') で相関は 0.28956658 **
18行目
** 一番強い相関は('予定', '周年') で相関は 0.3260869 **
相関値は0~1で、1に近い方が類似度がある
これがどのくらいの値なのかピンとこないので例として次のような例もつけておく
「ニコニコ動画」と「ユーチューブ」の相関係数は 0.664
「ニコニコ動画」と「ツイッター」の相関係数は 0.489
「ニコニコ動画」と「ラーメン」の相関係数は 0.127
「ニコニコ動画」と「東京」の相関係数は 0.144
「ユーチューブ」と「ツイッター」の相関係数は 0.445
「ユーチューブ」と「ラーメン」の相関係数は 0.088
「ユーチューブ」と「東京」の相関係数は 0.184
「ツイッター」と「東京」の相関係数は 0.192
「ツイッター」と「ラーメン」の相関係数は 0.142
「ラーメン」と「東京」の相関係数は 0.215
これを見ると相関係数と直感がそこまで離れていないことがうかがえる
conclusion
名取さなの雑談は無軌道である。
話題や単語の抽出を人力でやっているので、恣意的と言われたら否定はできない。