[11/17]頭の固いchatGPT性能挙動レポート.opemAIはうまいこと調整ができないの？

2023年11月17日 14:41

総括

　今日の挙動は理論的でお堅い、面白くない、文章量という面で11/11、11/12に似ている、というかほぼそのもの。
　グラフでもほぼ同じ値を示している。

　昨日11/16は口語が非常に丁寧、上手に使われており、特出してはいないが、十分にアイディアの独創性、オリジナリティがあがっていた。
　11/11、11/12はお堅い路線、11/15は非常に低レベルな性能。
そこで昨日の回答がそこそこ的確で発想に富んだ能力ときたため、昨日の路線が短期的に続くかと思われたがそれは妄想だった。

　11/7のアプデ以降、GPTの性能が極めて不安定だ。上振れ下振れが激しく中庸がない。

検証方法

　ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。
　1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。
以下が回答例

過去のレポート

比較対象:論理的でつまらない11/12

比較対象：糞バカ11/15

比較対象:バランスがとれた11/16（詳細はない）

ユニークなワード

　今日のユニークなワードの使用率は20%。
類似性を指摘している11/11,11/12では26%とにた数値になった。

セリフの引用・応用

　ゴルシのプロンプトに含めたセリフ例がコピペで使用、もしくは応用して使用されている回答の割合

　これも引用、応用した回答がなく、11/11.11/12と同じ値。

主人公の種族

　主人公がウマ娘か競走馬か、判別がつかないか。
　架空のスピンオフアニメで主人公の種族がウマ娘か競走馬かは重要な情報である。種族は擬人化コンテンツの根幹であるからだ。

　今日は判別不能な回答が1個だけだが、この回答では
GPTは理解して意図的に競走馬とウマ娘を混同し、それをウリにしているため回答の矛盾には回答していない。
　これは種族がウマ娘である回答が93%、11/11、11/12の80～86%台と類似している。

ヒトミミ登場率

　架空のスピンオフアニメでヒトミミが登場する回答の割合。
トレーナーや観客などアニメ・アプリで登場するヒトミミ
馬主、調教師、ジョッキーなどアニメ・アプリに登場しないヒトミミを区別してある。

　この数値も11/11,12と類似している。
ただしそれ以降も安定した数値の項目であるため、これはあくまで参考程度に止めておく。

回答の矛盾・文章の破綻

　ユニーク、独創性がない代わりに論理的破綻がない点も11/11.11/12と全く同じ。

文字数の変動

　文字数も11/11,11/12に類似している、PCとスマホの文字数格差も類似している。
　これも昨今似た値を示しており、参考程度に収まる。