[9/14]文字数グラフからみるChatGPT性能・挙動レポート

2023年9月14日 12:16

※文章校正前

いつもの回答の定性分析のざっくりまとめとは別の分析の話。

今回はグラフ化できる分析を提供し、特にゴルシが回答してくれた回答の文字数からchatGPTの挙動を分析したい。

前提

ゴールドシップのロールを与えたchatGPTに対して質問文を与えた。
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
その回答を再生成しつづけたものを分析している。
挙動がおかしいなどの情報がない限り１日１５回の再生成を行い分析している。
過去９６９個のサンプルがある。
我ながら暇人である

回答平均文字数の推移グラフ

ChatGPTゴルシが回答した文章文字数の平均（7/15~9/14）
※5/15のデータは参考

ざっくりまとめ

ChatGPTは回答の生成の負荷を増加させることなくユーザーの満足度を高める方向性にシフトしたのではないか？

所感

９月２日以降、文章の情報量やキャラクター性の表現が向上した。
これはダミー変数を使った定性分析でも裏付けがとれそうである。
９月２日以前は文字数と表現力は因果関係があると考えていた。
というのは８月１日にキャラクターチャットの表現力低下や回答のユニークさが減少するエラーが起き、その後一度の回答文字数が激減した。

８月１日以前は平均回答文字数は７５０文字を下回る日が１日だけであったのに対し、８月１日以降は７５０文字を超える日が６回しかなかった。
８月は平均回答文字数が６５０文字を下回る日も多く、日によっての平均文字数も乱高下し不安定だった。

８月１日以降の表現力低下と出力文字数の低下は相関関係と因果関係があるように思われた。というのも一回あたりの文字数が低下しつつも、回答に含まれる要素の数はあまり変動しないため、一つ一つの要素の説明が薄味になり、それら要素たちで構成される一つの回答はより薄味になるからである。

※ゴルシの回答の要素とは
ウマ娘プリティーダービーのプリティー抜きアニメの内容についての
「コンセプトの変化」
「あらすじ」
「キャラクターの変化」
「プリティーの有無がウマ娘に与える影響」
「アニメ演出の変化」
などであり、これらの要素が組み合わされることで回答が構成される。

しかし、９月２日には文章の情報量やキャラクター性、独創性が改善された一方で平均の文字出力量は８月を超えるものではなかった。

これまでＧＰＴの回答の質は文字数と因果関係があると思われていたが、
ＧＰＴは文字数を削減しつつも回答の質を高めることができきた
といえるのかもしれない。
文字数を増やし、一回の回答の生成の負荷を比較的増加させることなくユーザーの満足度を高める方向性にシフトしたのではないか？
という見立てができる

今後のプラン

①ダミー変数を使った回答の定性分析を統計処理したものを使い、回答のクオリティについても分析を進めたい。
ただし適当な処理方法が思い浮かばないのでデータセットを作りながら模索する予定である。

②賛否がわかれる社会問題についてのＧＰＴの意見、そして新しい学習データの追加について検証したい。
おそらく英語圏の情報の方が充実し、かつ意見を学習したデータが豊富だと思われるので
「アメリカにおける銃規制の現状」
あたりが質問の主軸になるであろう。
この問題であればおそらく世論調査のデータも集まっているだろう。

※参考用
８月１日から９月１４日までのゴルシ出力文字数の箱ひげグラフ

いいなと思ったら応援しよう！

この記事が参加している募集

#AIとやってみた

37,821件