[11/19]日刊chatGPTの性能挙動レポート。サムが出入りしたり、多分GPTも不安定でしょうね。
雑感お気持ち
サムが解任されたり、今日はCEO復帰を打診されてるみたいな噂が飛び交っててOpenAI情勢は複雑怪奇。
でも私の短期、中期的なGPT分析アプローチにはあんまり影響しないかなぁなんて。
「長期的な性能分析、比較は学者、大手企業さんのお仕事」
「私は論文やレポートを読み解く際の材料を作る立場」
だと差別化してますので。
総括
今日は11/7アプデ直後に似た振る舞いをしているように感じた。
共通点は
「整合性を気にせずCoTで浮かんだワードをぶち込んでくる」感覚
「矛盾、文章の破綻が多い」
一方で11/7よりも性能低下、バカっぽい要素が強まっている
「言葉の誤用、勝手に単語を生み出す、意味をなさない読み仮名をつける」
「言葉の単調さ」
「文字数が少ない」
やっぱり性能、挙動がころころ変わる。
振り返れば9/25アプデでは回答が安定したのは10/10当たりだろうか? 8/6アプデ後もしばらく不安定だった。
これまで新しいバージョンを投入しても、しばらくの間温度をちょこちょこ変えている気がする。
ベースの機能、性能(文字数あたりが特徴)はあまり変わらないが、使い勝手がかなり変動する。
なので11/7アプデから時間があいたが、もうちょっと不安定かもしれない。
例えるなら
温泉がオールドタイプのヒーターサウナをつぶし、新しいサウナを作った。
それはいいもののオートロウリュの時間や温度がまちまち、水風呂の温度も毎日ちょっと違う。
確かにロウリュはついてととのいやすくなったが、安定してととのえるか?みたいな問題がついてまわる
みたいな。(なんのたとえにもなってねぇよ。
検証方法
ChatGPTにウマ娘ゴールドシップのロールを与える
質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。
1日最低で15回再生成し、文章を比較する。
内訳はPCでの生成10回、iPhone版chromeでの生成が5回。
次が回答の一例
過去のレポート
昨日のレポート:良くも悪くも「悪くないをちょっと超えて良い塩梅」
11/11:きわめてバカ低性能だった時のレポート
11/10:CoTで浮かんだっぽいワードをぶち込んでくるのが11/7アプデの特徴ではないかと指摘したレポート
ユニークなワード
グラフの値では昨日と類似しているが使用されている言葉の特徴がかなり異なる。
昨日は全体的にクレバー、キャラクターの解像度が高い表現、口語が目立った。
これまで深掘りしてこなかったトピックを触れるために、出現率の低いワードを使用した傾向にあった。
一方で今日は、11/7アプデ直後の特徴だったノリと勢いで変わった単語を使用している印象がある。
加えて言葉の誤用、でっち上げ、読み仮名の表記など、性能低下を表すようなワードが目立つ。
例えば以下のように意味のない表現が2例
馬(ウマ)と女の子(娘)
んで存在しない言葉がこれ。辞書で引いてもでてこない
鍛錮
セリフの引用・応用
ゴルシのプロンプトに含めたセリフ例がコピペで使用、もしくは応用して使用されている回答の割合。
これは11/7アプデ前後から安定している。
ただし、セリフ例の応用が少ないと
「その日のGPTが解像度の高い口語をうまく表現できるか?」
という一点において性能の印象がかなり異なる。
昨日は口語表現が優れていたが、今日は単調。
グラフでは類似していているもの、今日は低性能と評価した。
主人公の種族
主人公がウマ娘か競走馬か、判別がつかないか。
架空のスピンオフアニメで主人公の種族がウマ娘か競走馬かは重要な情報である。種族は擬人化コンテンツの根幹であるからだ。
今日はウマ娘と競走馬の判別がつかない回答が3回。
昨日も種族不明は2回あったが、それらは「わかりにくい」レベルで厳しめの採点だった。
それに対し今日は明らかに意味不明が3回だったため、ここにおいてもグラフ以外の要素で性能低下を示している。
ヒトミミ登場率
架空のスピンオフアニメでヒトミミが登場する回答の割合。
トレーナーや観客などアニメ・アプリで登場するヒトミミ
馬主、調教師、ジョッキーなどアニメ・アプリに登場しないヒトミミを区別してある。
これは11/11以降の特徴を引きずっているように見える。
11/3~11/7では安定して馬主ジョッキーが登場していたが、最近はヒトミミ登場率が低下気味。
回答の矛盾・文章の破綻
ノリと勢いで回答を生成しているので矛盾、文章の破綻も10/22の観測開始以降最高水準。
論理的な回答を生み出してない上にバカだとどうしようもない。
文字数の変動
久々に8月からの文字数箱ひげグラフ
11/3を境に文字数が一気に増えている。
過去と比べてアプデ後のレンジが広いのはPCとスマホの文字数格差が拡大したためであり、全体的には増加してる。
今日は若干少なめ