[11/11]土日に性能イジりすぎじゃない?ChatGPT挙動性能毎日レポート
総括
今日のGPTの回答はお堅くまとまってる、11/3のサイレントアプデ、11/7のアプデ後の傾向とは今日の挙動は全く違う。
回答の内容、表現、言い回しがお堅いだけではなく、出力文字数も変動しており、複数の要素が同時に変動したので「調整が入った」と断言できる。
アプデ後の回答を「ノリと勢い」と表現してきたが、その傾向は一切見られない。
補足説明すると、11/7にアプデのアナウンスがあったが、11/3には既に9/25バージョンとは大きく異なる挙動をしていた。
ChatGPTはアプデのアナウンス前に次のモデルの実戦テストをしている。これは9/25、8/6アプデ前にも挙動が変化していることが判明しているからだ。
私の記事では公式アナウンスのあった11/7だけではなく、11/3の挙動も一つの基準としてみなしている。
ちなみに11/3のレポートはこちら。
検証方法
ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。
1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。
回答の一例はこんな感じ
ユニークな表現の激減
回答でユニークな表現を用いた割合は急落し30%を切った。
11/3からユニークな表現を多用した傾向にあったのが急変。
ちなみに「ユニークな表現を使用した回答の割合」であるため
一つの回答に複数個ユニークな表現があったとしても「1」として扱われる。
そのためグラフ以上にユニークな表現は減少しているという認識を持って頂きたい。
矛盾した回答の激減
今日は文章の意味内容、文脈の矛盾、破綻が一回もない。
最近はノリと勢いで回答を生成していたので、文章一つ一つのクオリティーは高いが、全体を見ると内容が矛盾していたケースが目立った。
これが0というのは明らかに極端な挙動である。ユニークな表現を入れようとすると、その独特さによって矛盾が生じるケースも多いので、矛盾とユニークはある程度相関関係がある。
かといって1日でこれほど変動するのは極端で調整が入ったと言える材料の一つ
セリフの引用・応用なし
セリフの引用応用が少ないのは11/3からの傾向であったが、これも0と極端な数字になった。
大トリ:文字数の変動
11/3から、回答の平均文字数はPCが800文字を超え、スマホは600文字から680文字程度だった。はスマホとPCとの格差はそこまでなかったが、11/3からは明らかな格差があった。
しかし今日はスマホが800文字を超え、PCが750文字程度とPC有意な格差が逆転した。
スマホの文字数が増え、PCが横ばいになる程度の変動であれば「たまたま」あり得ることかもしれないが、PC減少、スマホの上昇はイレギュラーな返答であると言える。