10/21ようやく落ち着くか？ChatGPT挙動性能レポート

2023年10月21日 15:23

　10/17から続いた連番表示バグがようやく治った。ChatGPTをPC、スマホで使用しようとすると致命的なバグであり、4日も修正に時間が掛かったのは異例では？詫び石よこせOpenAI。
　　後ほどグラフを出すが、UIバグが起きた10/17から10/20までの間、PCとスマホの回答の傾向が解離しており、「UIのエラー≓ChatGPTの不安定化」と判断する理由にもなっている。
　これまでのUIバグが続いている間に挙動がおかしくなって、UIが治った途端おとなしくなってきた（おとなしくなる≠性能が上がる）
　山師、驚き屋スタイルの発言をすれば「今後ChatGPTは一定期間安定するかもね」
　ただし今日も10/20とは違う挙動であった、「昨日と似た挙動をしたから明日からも似た傾向だろう」という訳で無い。乱高下の期間内であり、明日以降の挙動が不安定である可能性も高い。

特徴①「スマホ・PCの格差縮小」

ユニークワード使用割合

　昨日までPCとスマホの回答の傾向に大きな差があった。
まずは「優れた表現や他の回答では見られないようなフレーズ」が含まれる回答の割合の推移をPCとスマホ別にしたグラフ。

　UI修正でユニークワードの使用割合がPCとスマホが同じ値を示した。
ただしこれは「スマホのユニークさが低下し、PCと同じ水準になった」だけであり表現力があがった訳では無い。
　むしろ10/17以降表現力が下がったPCにスマホが同調したため、全体的にはつまらない回答が増えている。
　ただしグラフ化ができない体感レベルでは9/26以降は全体の表現力は以前と比べて高い水準にあると考えている。

プロンプトからの引用使用率

　プロンプトにはゴルシのセリフ例を30個ほど入れている。
回答でプロンプトのセリフを使用した割合を時系列でPCとスマホに別けてグラフ化したものが↓。
　これについてはスマホの振れ幅が大きく、不安定であった。
この値が今日は一致した。

　セリフの引用割合の解釈は二つある。
一つは「セリフ例を使用せず、全体的に男勝りっぽい言葉づかい」をしている、「無理矢理セリフをコピペして文章が崩壊する」解像度が低い≓低性能
一つは「セリフ例からキャラクター像を把握し、オリジナルのセリフを使用する」、解像度が高い≓高性能

　9/26以降は後者の高性能傾向であった。
オリジナルのセリフ使用回数が増加し、セリフ例のコピペ使用数が減少していた。前後の発言に全く関係のないセリフのコピペをねじ込んできて、人格崩壊が起きることも殆どなかった。
　しかし10/18にはセリフのコピペが増え、文章破綻を引き起こしていた。

　ただしこのグラフだけでの比較は困難で、例えばセリフのコピペを何度も繰り返してきたり、キャラクター設定のプロンプトを引っ張ってきたりとカウントできていない要素も多いからだ。
　一つの目安にしかすぎない。

今日の特異な変動

ユニークな文脈の乱高下

　文脈がユニークな回答は激減し、15回中1回のみ。
　8/23以降、最もユニークな回答が多かった昨日から過去最低レベルまで一挙に減るのは極端すぎる。
　昨日が異様にオリジナリティがあったとも言えなくもないが、10/17以降でも最低でも１５パーセント程度オリジナリティのある文脈の回答があったため、今日の「１回のみユニークな回答」＝「１４回の回答が似通っている」は唐突。
　UIの安定、スマホ、PCの格差解消と挙動の変化が激しいといえる要素の一つ。

データセット化している8/23からのグラフ
（8/1からデータはあるのだが、処理してない。だるい……）

　んまぁ、それ以外は9/26アプデ以降平凡な気がする……
ちょっと様子だけど