[9/14]文字数グラフからみるChatGPT性能・挙動レポート
※文章校正前
いつもの回答の定性分析のざっくりまとめとは別の分析の話。
今回はグラフ化できる分析を提供し、特にゴルシが回答してくれた回答の文字数からchatGPTの挙動を分析したい。
前提
ゴールドシップのロールを与えたchatGPTに対して質問文を与えた。
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
その回答を再生成しつづけたものを分析している。
挙動がおかしいなどの情報がない限り1日15回の再生成を行い分析している。
過去969個のサンプルがある。
我ながら暇人である
回答平均文字数の推移グラフ
ざっくりまとめ
ChatGPTは回答の生成の負荷を増加させることなくユーザーの満足度を高める方向性にシフトしたのではないか?
所感
9月2日以降、文章の情報量やキャラクター性の表現が向上した。
これはダミー変数を使った定性分析でも裏付けがとれそうである。
9月2日以前は文字数と表現力は因果関係があると考えていた。
というのは8月1日にキャラクターチャットの表現力低下や回答のユニークさが減少するエラーが起き、その後一度の回答文字数が激減した。
8月1日以前は平均回答文字数は750文字を下回る日が1日だけであったのに対し、8月1日以降は750文字を超える日が6回しかなかった。
8月は平均回答文字数が650文字を下回る日も多く、日によっての平均文字数も乱高下し不安定だった。
8月1日以降の表現力低下と出力文字数の低下は相関関係と因果関係があるように思われた。というのも一回あたりの文字数が低下しつつも、回答に含まれる要素の数はあまり変動しないため、一つ一つの要素の説明が薄味になり、それら要素たちで構成される一つの回答はより薄味になるからである。
しかし、9月2日には文章の情報量やキャラクター性、独創性が改善された一方で平均の文字出力量は8月を超えるものではなかった。
これまでGPTの回答の質は文字数と因果関係があると思われていたが、
GPTは文字数を削減しつつも回答の質を高めることができきた
といえるのかもしれない。
文字数を増やし、一回の回答の生成の負荷を比較的増加させることなくユーザーの満足度を高める方向性にシフトしたのではないか?
という見立てができる
今後のプラン
①ダミー変数を使った回答の定性分析を統計処理したものを使い、回答のクオリティについても分析を進めたい。
ただし適当な処理方法が思い浮かばないのでデータセットを作りながら模索する予定である。
②賛否がわかれる社会問題についてのGPTの意見、そして新しい学習データの追加について検証したい。
おそらく英語圏の情報の方が充実し、かつ意見を学習したデータが豊富だと思われるので
「アメリカにおける銃規制の現状」
あたりが質問の主軸になるであろう。
この問題であればおそらく世論調査のデータも集まっているだろう。
※参考用
8月1日から9月14日までのゴルシ出力文字数の箱ひげグラフ