283アイドルを大分類する【シャニマス】
・みなさんはこういう図を見たことがありますか?
・これは私が作った283プロアイドルが新幹線に乗るときの分布図です。横軸は席を倒す/倒さない。縦軸は窓の外を見る/見ない。Twitter見てるとたまにこういうのが回ってきますよね。
・分布図一つ一つを見ると、「○○と○○はいつも近くにいるなぁ」とか「〇〇はいっつも隅っこにいるなぁ」とか感じません?だとすると、色々なテーマで作られた分布図をかき集めてくれば、何か傾向が浮かび上がるかもしれません。
・そして、均した結果のアイドル同士の距離というのは性格がどれだけ違うかを反映してるともいえるのではないでしょうか。
・性格が近いアイドル同士をグルーピングしたらどんな感じになるの?/あさひとか透っていっつも端っこにいない?/大崎姉妹って近いの遠いのどっち?/私はあさふゆの距離が気になります!/アンティーカとかはバラバラな気がする etc…
・こういう疑問全てに一応は回答できる結果を提示しましょう。
手法
※興味なかったら飛ばして、次節以降の結果だけ見るのがおすすめです。
・僕は統計学の専門教育を受けた人間ではないのでそのまま参考にはしないでください!
・大まかな流れは以下のようになります。
分布図の収集
データ化
距離行列の生成
クラスタリング
1.分布図の収集
・Twitter、pixiv、5ちゃんねる、某discordサーバーなどから25個集めた(つまり50種の評価軸である)。
・同作者からは3個までの制限。
・作成が古いなどの理由で、一部アイドルを含まない分布図もある。
・大幅に"情報量"を減らして利用するゆえ、二次利用の許可などは取らなかったがご容赦。
2.データ化
・分布図での位置の情報を目視で-4〜4の評点に変換した。
・アイドル25人それぞれに50種の評点が定まる。
・「類似度」として、全ての2人組の組み合わせについて評点の相関係数を計算した。これにより25×25の相関行列を取得した。
・すでに、この行列を眺めれば多くの疑問に回答できる。
3.距離行列の生成
・相関係数は類似度の指標であるが、クラスタリングのために、距離(非類似度)の指標への変換が必要である。
・変換は簡単に 距離 = 1- 相関係数 とした。
・これで25×25の距離行列を取得した。
4.クラスタリング
・上述の距離行列で、Ward法による階層的クラスタリングを行った。
・最も「近い」組み合わせからクラスターを作っていくのが階層的クラスタリングである。くっつけたら次に近いのはどこか調べてまたくっつける、を繰り返して遂にはひとまとまりになるまでやる。結果を遡れば、k個のグループに分けられるというわけだ。
・距離行列から「近さ」を判断する方法の違いによりクラスタリングにも種類がある。Ward法ではクラスターの郡内分散を最小化するようにクラスタリングをする。
・以上が手法の簡単な説明です。Rの標準パッケージですぐできます。
・手法の問題点については備考で述べています。また、25×25の相関行列も記事の最後に載せときます。
大分類
・それでは結果に移りましょう。
・たくさんの分布図からアイドルのペアごとに「類似度」を計算して、全体として類似度が近いアイドルが集まるようにユニットを6つに再編成しました。
・上図が結果。生物の系統樹と同じ記法です。
<樹里 夏葉 果穂 あさひ 透>
・放クラ改ですかね。活動的でgood。
<智代子 甜花 めぐる 恋鐘 愛依>
・明るい皆さん。コミュニケーショントラブル100%回避。
<にちか 美琴>
・知ってるやつじゃん。これはすごい。
<結華 冬優子 灯織 小糸 甘奈 円香>
・地に足ついた感じの皆さん。
<摩美々 雛菜>
・摩美々×雛菜のユニット!?えらいことが起こっている。
<真乃 霧子 咲耶 凛世 千雪>
・ふわふわですね。一番見たいかも。
・以上が似たもの同士で編成した新グループです。(手法によって結果も変わるので"一例"だと思ってください。)
・それぞれのグループ、上手くいきそうですかね。センターは誰ですかね。どんな歌歌うんですかね。方向性がわかるから想像しやすいかもしれません。
ユニットの特徴
・では、既存のユニットの中では類似度はどんな風に分布しているか見ていきましょう。
・こっからもただのデータの話をするんですが、各自がそこに「嬉しさ」を見つけにいくように読んでもらえると良いかもしれません。
イルミネーションスターズ
・283プロダクションの中心にいるイルミネーションスターズ。他にも3人ユニットはありますが比較して、類似度が中立(似過ぎず違い過ぎず)でバランスが良いユニットだと言えます。
・その中でも真乃が対称性の中心になっていて、他二人に少しずつ似ている部分を持っています。
・上図は分布図データにおけるメンバーの距離を、三角形として再現したものです。
アルストロメリア
・一転、アルストロメリアは非対称な類似度をもっているユニットです。
・甜花×甘奈が逆向きの傾向を持っていて、甘奈×千雪は似ている傾向、千雪×甜花はほぼ無相関という結果。意外ですか?僕は結構しっくりきます。
・三角形も少し歪みます。
ストレイライト
・仲間だけどライバルなストレイライトはどの組み合わせもマイナスの類似度になりました。あさひと冬優子の類似度めちゃくちゃ低くて嬉しいですね。
・対称性の中心になっている(イルミネでいう真乃)のは愛依です。嬉しいですね。
・三角形はイルミネーションスターズと似ていますが、互いの距離が遠いのでサイズが大きいです。
ノクチル
・続いて、4人組ユニットノクチルです。基本的にマイナスの類似度が目立つストレイライトに似た関係ですが、その中では小糸×円香と透×雛菜という組み合わせがプラスの類似度を持っています。直感と比べてどうですか?
・無理矢理に四角形を作ると概ね上図のようになります。
アンティーカ
・5人組ユニットにもなるとデータの解釈が難しいですね。ここではアンティーカの中だけで前節のような分類をしてみましょう。
・少ないデータですし、簡便に手計算で最近隣法を行います。
・樹形図で、まず霧子×摩美々と咲耶×恋鐘がそれぞれグループになり、その後結華はまだここに突入できず4人グループが先にできます。これは、どっちのグループに入ろうにも結華は小さい類似度しか持てないからなんです。
・結華に限らずマイナスの類似度は目立ちますし、アンティーカにはバラバラさがあるといえます。
放課後クライマックスガールズ
・アンティーカと比べてプラスの類似度が目立ちます。同様に樹形図を書きます。
・部分的なグループができないシンプルな樹形図になりました。凛世×樹里を除けば、誰に対しても無相関か似ているかという感じなので全体としてひとつにまとまっていると言えるでしょう。
シーズ
・シーズ。実は結構似ている2人のユニットなんです。
・もう少し言うと、美琴にとって1番似ているのがにちかで、にちかにとって3番目に似ているのが美琴となっています。283の他のアイドルでこの二人に似ている人が少ないということです。
注目すべき記録
・締めとして、283プロ全体で見て顕著な記録をいくつか書いておきます。
類似度ベスト5
真乃×霧子 0.52
灯織×小糸 0.45
真乃×凛世 0.44
恋鐘×愛依 0.44
果穂×あさひ 0.42
・ほのぼのしちゃいますね。
類似度ワースト5
小糸×あさひ -0.55
甜花×夏葉 -0.53
にちか×あさひ -0.50
にちか×夏葉 -0.48
冬優子×真乃 -0.46
・緊張感がありますね。甜花×夏葉で笑っちゃう。
評点のトび具合
ベスト5 :透 美琴 あさひ 果穂 雛菜
ワースト5:樹里 めぐる 智代子 真乃 恋鐘
・分布図の隅っこにいることが多い/少ないというランキングです(評点の二乗平均を比較)。そうだよなぁって思いました。
最後に
・めちゃくちゃ楽しく書いていたんですが、結果の客観性については疑わしい部分があると言っておくべきでしょう。
・大きく分ければ、集めたデータについての問題と、データを処理・解釈する時の問題があります。後者の選択次第でもっと違う結果が出たり、もっと精査された情報の取り出し方があったりすることと思います。
・さらにもっと主観的な意味での「解釈」についても気をつけるべきかもしれません。例えば後に載せている相関行列は、あくまで行動選択の類似度を推定した結果に過ぎません。「団結力がある」とか「心の距離」とかそういった解釈を与えるのは”一歩踏み出す”行為です。
・類似度が低くてもいいユニットがあることをみなさんも知っていますよね。
備考
<相関係数の表>
↓こちらになります。二次利用はご自由にどうぞですが、アイドルたちの実際の関係性を語るものではないという点にご注意ください。
<集めたデータについての問題>
・計測のブレ
→アイドル本人にアンケートを取れるわけではなく、誰かの想像で計測した評点である。同じテーマで計測者を変えればデータも大幅に変わるだろう。
・分布図テーマのバイアス
→テーマ決めの動機には「面白いと思えること」「あるあるを共有できること」「個人的に好きなアイドルが目立つこと」などがある。一般的な行動選択の傾向を知りたくても、恋愛事情などの一部のカテゴリが過剰に勘定されていた可能性がある。
・一部アイドルが欠けている分布図があった
→例えばシーズは10個近く分布図を欠いていて、他のアイドルとは相関係数の信頼性が異なる。
※「ネット上のアイドル分布図をデータとして使おう」というところから分析が始まっているせいで、推定したい真の値が何なのかが明瞭でなかった点が最大の問題であろう。
<データの処理・解釈についての問題>
・評点は重みを揃えるべき?
→評点の分散が大きい/小さい評価軸があったとすると、相関係数への影響力が変わるため不公平である。今回は平面に配置する図という特性のおかげか、概ねその配慮が必要ないように分布していたためそのまま用いた。
・距離の選択
→今回の評点はカテゴリカルだが、9段階もあるから連続な数値ベクトルと同等に扱い、一般的な相関係数をもとにした距離を選択した。
・クラスタリング方法の選択
→計算量的に問題がないのでWard法を用いた。それ以上の精査は正直わからない。
・因子分析について
→有用な結果が得られなかったのに加えて、露骨な偏見を見せることになるのは少し嫌だったのでまとめなかった。
<参考>
・「Rpubs 階層的クラスタリングとデンドログラム描画」
・「Rでクラスター分析〜距離行列の生成からクラスタリングまで」
・『多変量解析のはなし 改訂版』, 大村平, 日科技連
・シャニマス分布図メーカー
この記事が気に入ったらサポートをしてみませんか?