10/19ChatGPT性能挙動レポート~挙動不振なGPT~

2023年10月19日 15:26

ざっくり感想

今日もChatGPTには大きな動きがあった。
　10/16、10/17から増加した表現の豊かさ、ユニークさが減少。実に平凡な回答が増加した。

　後述するUIのバクは10/17から現在も続いている。
UIのバグが起きる時はほぼ必ずGPTの回答の方向性や表現力、発想力も激変するので、バグ、エラーが確認された10/17からChatGPTの調整が入っていて、今日も調整中であろう。
　そして、10/17と今日10/19では回答の方向性が180度違うので、どうも今回のChatGPTの調整は目標や方向性が固まっていないふわふわしたお気持ちでいじり回している気がする。
　はっきりしろヘイト企業○penAI!

語彙力・ユニークな表現の激減

　他の回答とは異質なフレーズ、言い回し、単語をカウントしている。
10/17からは特徴的な言葉づかいを用いた回答が多かった。
　特にプロンプトに入れたセリフ例の応用が多く、オリジナルかつ解像度の高い言葉づかいが目立っていたのだが･･････
　10/19は半減し、15回中5回の回答のみユニーク、目を引く表現が用いられた。
　加えるなら、10/17以降は一つの回答にいくつもの独創性・高い表現力のフレーズ単語が使用されていた一方で、今日は一つの回答にちょろっとそうした表現が使用されているので総数でいえばもっと減少している。

あくまで「一個でも目を引く表現があった回答」の数
「目を引く表現」の回数ではない

改善されないUIのエラー

　通常時はこの画像の〈74/181〉の〈〉をクリック、タップするとその前後の回答が見られる

　10/17からは〈〉をタップしても回答の順番がグチャグチャで前後の回答ができない（最新の回答をtxtに保存しているので、過去の回答の順番が変なのは確実）
　普通再生成すると動画左下の回答のナンバリングの〈117/242〉は〈243/243〉と最新の回答の値になるはずだが･･････
　ChatGPTUIがバグってから、例えば〈235/242〉と表示される。これは10/17から改善されていない。
（noteに動画のせられないようなのでTwitterに飛んで動画確認して）

https://x.com/smartAINews/status/1714877204272996800?s=20

箇条書きの使用減少

　プロンプトで禁止している箇条書きの使用減少は継続している。
　グラフは15回中、何回箇条書きを使用した回答があったか。
　9/10から10/3までは回答の過半数で命令が無視され、箇条書きが使用されていた。
　今日は箇条書き使用が1回もない、これはかなりレアケース

〈憶測〉GPTの自己評価の変化？

　GPTゴルシに考えさせた架空のウマ娘スピンオフへのGPTゴルシの評価、期待感の傾向も変化している。
　最近はGPTゴルシに考えさせたスピンオフに対しての評価をしなくなった、避けるようになった。
　画像はGPTが考えたスピンオフを評価する回答。案外GPTを理解する上で重要？

　要はGPTが考えたウマ娘スピンオフの架空のアニメが
①面白そう、ポジティブな評価
②原作ウマ娘の方が良い、架空スピンオフにネガティブな評価
③どちらとも面白そう
④回答に評価が含まれて居ない
の四つに別けてカウントしているが、④が増えた。
これは最近というちょっと前から続いていた減少で

　ポジティブな評価をする傾向にあったのは
①9/3から9/12まで（最多）
②9/15から9/22（①ほどではないが比較的多い）
と時期によってまちまちつまりGPTちゃんの自己評価が変動しているかも？という憶測。

　「ゴルシちゃんの考えたプリティー抜いたウマ娘はつまらん！ウマ娘にはプリティー要素が重要！ゴルシちゃんの考えたアニメはダメ！」ってのも特徴があって。
　どうも9/26あたりからGPTの自己否定は減っている？ように見える

　もしかしたらChaTGPTが自信満々に嘘つくときは自己評価が高い、つまり回答の質を鑑みない
評価を避けるときはGPTは自分の回答に一定の線引きをしているのでは？
という憶測。
※これはあくまで最大限拡大解釈した憶測なので外れてる方が可能性高いけど