見出し画像

ChatGPTでWhite Album2のデータを分析する

2023/8/29 追記
Code interpreterからAdvanced Data Analysisに名称変更されたようです。


Code Interpreterが解禁されたので、White Album2の誕生日のツイートデータを用いて分析してみました。


はじめに

Code InterpreterがChatGPT plusのユーザー向けに今朝解禁されました。このツールは、データをアップして自然言語で会話をすると、それを元に可視化や分析を自動で行ってくれます。

試してみる上で、まず考える必要があるのはどのデータを使うかです。データ分析を生業としている人なら、タイタニック号の乗客の生存状況など、よく知られたサンプルデータを使うことが一般的です。

しかし、個人的には無味乾燥と感じたため、この記事のタイトルと冒頭で触れたように、White Album2の誕生日のツイートデータを使って可視化と分析を試みることにしました。

「何それ?」という方のために、簡単に説明します。White Album2は恋愛アドベンチャーゲームであり、いわゆる三角関係の物語です。ただ、それだけではなく、友人や家族、仕事を巻き込んだ人間関係の葛藤、そして三角関係を突き詰めるとどうなるかを首尾一貫して描いた人生ドラマと認識しています。面白い作品は他にはあれど、私個人としては、この作品は面白いの向こう側にあり、最も好きな作品です。

そんな作品ですが、作品の公式Twitterアカウントでは、White Album2の主要メンバーの誕生日を毎年祝っています。今回はそれをデータとして利用することにしました。

おそらく誰も試みようとはしない内容なので、自分でやる必要があると思い、謎の意義を感じています。

仮説

データ分析は仮説ありきです。
練習も兼ねて、以下のような仮説を立てました。

まず、White Album2には5人のメインヒロインが存在しますが、特に冬馬かずさと小木曽雪菜が人気です。そのため、この二人がツートップとなりそうです。ただ、僅差で冬馬かずさがリツイートといいねで上回るのではないかと思われます。年によっては入れ替わることもあるかもなので、面白そうなところです。

また、White Album2は2013年10月にアニメ化されており、それ以降の数年程度は一時的な伸びがありそうです。ただ、2期は現在も作られてはいないので、一時的な伸び以降はリツイート/いいね数どちらも減少傾向にあるのではないかなと思います。

そこまで深い仮説ではないですが、仮説を持った方がワクワクします。
ワクワクすればそれだけで十分かと思います。

データの収集

Twitter APIの仕様変更が直近あったことと、そもそも使い方についての詳細な知識が不足していたため、Twitter APIは使用しませんでした。また、GPT-4のBing機能も最近制限がかかったため、それも利用できませんでした。

そのため、Twitter上で手作業でデータを集めました。地道に1つ1つのデータをコピペして取得するだけです。

かずさ派

データを取得した後は、ある程度自分で整形作業を行いました。
その後はChatGPTにお願いして、データをCSV形式に変換してもらいました。

そして以下のデータが得られました。
2023/6/8の14時時点のデータです。


Code Interpreterと協働

試行錯誤がかなり長いので、結果を見たい場合は、「結果」までスキップしてください。やりとりそのものは「参考」でリンクを掲載しています。

(自分)
続いて、以下に向けた可視化を行なってください。可視化においてはlineplotでお願いします。
・5人それぞれの誕生日における各種情報の推移
・5人の各種情報の年ごとの比較(Retweets数やLikes数など)

以下、ChatGPTによる可視化。
登場人物ごとの図を作成してしまっている。
ほしいのは、リツイートにおいて5人の登場人物の推移図を見たい。

そうじゃない
(自分)

私の指示が悪かったようですね。

1つのプロット内に各種情報を入れているようですが、そうではないです。
そうではなく、例えばリツイート数においては5人でどのような違いがあるのか、のようなプロットが見たいのです。
なので、リツイートに関するプロット、いいね数に関するプロット、引用数に関するプロット、、、のようにしてください。

また、プロットの際に使用している線の色がどれも緑色に近いため、どの線がどの情報に該当しているかがわからないです。
そのため、視認性を守りつつ、線それぞれは異なる色にしてください。

また、日本語フォントの問題があるため、それぞれの名前を英語表記にした方が良さそうですね。
以下それぞれの名前の対応となります。

冬馬かずさ: Kazusa Touma
小木曽雪菜: Setsuna Ogiso
和泉千晶: Izumi Chiaki
杉浦小春: Koharu Sugiura
風岡麻理: Mari Kazaoka

なお、欠損値があることを考慮して、データがあるところには”丸ぽち”をつけているようですね。
これについては非常に良いです。

上記を踏まえた上で再度プロットしてください。

以下、ChatGPTによる可視化。
最初のリツイートは良さそうだが、他が明らかにおかしい。

縦軸とかおかしい
(自分)

リツイートの可視化は問題なさそうですが、そのほかのプロットが明らかにおかしいです。
縦軸のCountがぐちゃぐちゃです。再度見直してみてください。

また横軸の年代については表記が一番下のプロット以外省略されてしまっています。
別々にプロットするなどして、横軸の年代がパッとわかるようにしていただけますか?

結果の図は省略。まだ治らない

(自分)

横軸の年代のラベルは解決してますね。

しかし、リツイート以外のデータのプロットについては全く直ってないようです。
データを読み込みなおしたとのことですが、明らかにおかしいですよ。
縦軸のCountのメモリもぐちゃぐちゃのようです。
プロットした後におかしくないかを確認して、おかしそうであれば修正等を行なって、
正しい可視化を行なっていただきたいです。

以下、ChatGPTによる修正。
プロット後に、自分で別の修正点を発見してくれたようで、再度プロットしてくれている。

以下、ChatGPTが修正点を自分で発見。

以下、全部のプロットを2010年からに統一するよう修正してくれた。

(自分)

素晴らしいですね、ありがとうございます。

最後に以下の2点お願いしたいです。

・上記から導ける洞察や示唆は何か。次なる分析に繋がるような新たな仮説がもしあるとすれば何か。

・5人それぞれの翌年の結果を予測してみてほしいです。
 データが少ないので難しいのは承知してますがやってみてほしいです。
 結果を可視化する際は、先ほどのプロットに地続きで予測結果のプロットが続くイメージです。
 その際、予測であることがわかるように、マーカーを"X"などにする。
 また、過去データについては線で結んでいますが、予測点と直近の点との間は点線で結んでほしいです。

予測してくれたものの、点線で結んでくれていない。
図の左の対応関係において、同じ名前が2つ表示されるようになっている。

(自分)

ありがとうございます。
予測後の可視化については惜しいです。

以下、可視化について2点修正お願いします
・過去データについては線で結んでいますが、予測点と直近の点との間は点線で結んでほしいです。
 現状、そこの点線部分で繋がれていないです。

・各プロットに、どの色の点が誰のものかを記載いただいてるかと思います。
 これについて、予測の点も丁寧に記載いただいていますが、それについては不要です。
 "x"のプロットが予測であることはわかっていますので。
 現状、同じ名前が2つずつ並んでいますが、1つだけで十分です。

以下、明らかにおかしい。
もっとも古いデータと予測データを結んでしまっている。
また、誰がどの色かの対応関係も消えている。
予測のXがOになってしまっている。

修正依頼と修正を2、3度やっても変わらなかった。
そのため、プログラムを自分の方で見て、おかしそうなところを指摘。

(自分)

あなたの記載したプログラムを確認しました。
おそらく"past_data"が年代順にソートされていないのではないでしょうか?
だから最新のデータを取ったと思いきや、一番古いデータをとってきてしまっているのではないかと推測します。
プログラムで抜けている箇所があるために直っていないのではないかと思われます。


また、少し前のプロットにはあった、線の色と人物名の表記が消えてしまっています。
対応関係がわからないので表示をお願いします。
注意として同じ人物名を少し前のプロットでは、1つのプロット内に2回表示してました。
1つのプロット内に同じ名前は1つで十分です。

以下で諸々修正されたものの、最終的には治らなかった部分もあった。
以下、今回は断念
・予測部分がXで表示されていない
・2022年まで誕生日のものに関して、予測結果は2023年にプロットされるべきであるが、2024年に全てプロットされている。

結果

次の年度の予測も行い、以下となった。
2022年まで誕生日を迎えている登場人物については2023年に予測がプロットされるべきだが、上手に行えず一律2024年の予測となっている。

上の可視化をもとに、ChatGPT側で下した洞察や示唆

個人的に気づいた点は以下

  • かずさと雪菜

    • この2人がツートップは想定通り。

    • 2021年まではリツイートといいね数でかずさが上回っている(僅差の場合もある)。だが、2022年で雪菜が初めてかずさをリツイート、いいね、引用数で上回った

      • というより、かずさは2022年だけ何故か大きく落ちている

    • その後、2023年では再度かずさが雪菜を大きく引き離す。

    • 2024年においては、接戦になると予測されている。

      • シンプルな線形回帰とのことなので参考程度に。

    • 作品内だけでなく、ここでも互いが不倶戴天の敵になっている。

  • 全体的傾向

    • アニメ放映(2013/10月〜12月)以降の2014年、2015年は変化がかなり少ない。

    • 2016年から2017年で一気に伸びている。

      • 何があった、、?

  • そのほか

    • 引用(Quotes)において、2020年は小春が雪菜を上回る。

    • 主役の春希と屈指の友人である武也が祝われていない。

おわりに

分析結果においては、White Album2好きな人の中で話のネタとなったり、この結果をもとにした次なる考察や論争に繋がれば幸いです。

本記事は作品自体の魅力を語ったものではないので、全くもって宣伝にはならないですが、いろんな方に(White Album2の方を)体験して欲しいなと思っています。
私個人としても、いろんな方のプレイ後の感想や考察を見るのが好きというのもあります。

フルでプレイする場合は上記一択となります。破格の値段です。
ダウンロード版もありますが、抜けている話も多いです。

アニメは全体の1/7〜1/9程度の分量です。進撃の巨人でたとえると、エレンが巨人になったぐらいか、調査兵団に入る前くらいで終わっています。ちなみに、エレンの声優はWhite Album2の主要な登場人物として出てきます。

参考

  • Code Interpreterを用いた分析プロセス1
    https://chat.openai.com/share/8e6dcb3a-9fd2-4342-9b0b-ad4a83567774

    • こちらを最初にやっており、スムーズに可視化等が全てうまくいったのですが、時間が経つと可視化した図などが消えてしまうことを知らず、記事としては没としました。

  • WHITE ALBUM2に出会って人生大きく変わった話
    https://note.com/matsur1/n/n1af781aca860

    • 流石にここまでのケースは稀ですが、ため息が出たり、偶然にもお腹が痛むことはありました。

いいなと思ったら応援しよう!