［11/27］手放しで高性能化と評価できる、回答のユーモアと論理的思考を両立し、方向性も安定してるchatGPT挙動性能レポート

2023年11月27日 11:30

総括

　今日も11/24からの高性能化を維持。

　11/7アプデ後はサムアルトマン問題と関係はないだろうがChatGPTの回答は不安定で、回答の傾向も二日以上続くことが稀だった。落としどころといえる調整が終わったのだろうか？

　　11/24からchatGPTがユーモア、ボキャブラリの豊かさと論理的思考（矛盾がない）が両立し、回答が安定している。

　特に今日は一回も回答の矛盾がないにも関わらず、ユニークなワード、ボキャブラリーが豊かになっている。
　11/7アプデ後はユニーク、ボキャブラリーが高まると論理的思考、回答に問題を来す傾向があったため、これらを両立させているのは素直に評価できる。　
　この傾向が続けば11/7アプデは高性能化に路線を切ったと断言できる。

　大胆な仮説としては
　アプデ後に続いたGPTsの強すぎる負荷により、通常目的のGPT４の性能が落ちていた。
　そこでGPTsとGPT４の使用上限を減らしたことで負荷が軽減され、11/7アプデによって11/7アプデGPT４本来の性能が生かし切れるようになったか？？

検証方法

　ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。

　1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。
次が回答の一例

過去のレポート

GPTゴルシ分析の見方

安定化しはじめた11/24のレポート

高性能化しはじめた11/25のレポート

更に高性能化しはじめた11/26のレポート

ユニークなワード

　ユニークなワードの推移。11/23から安定してボキャブラリが豊富になっている。

　但し昨日の方が同一の文章内でユニークなワードが多く使用されていたため、グラフで可視化できない点では昨日の方がユニーク、ボキャブラリが豊かだった。

　しかし、それを念頭に置いても今日のユニークさは評価に値するものである。
　付け加えて矛盾や文章の破綻、不適切な回答が一切なかったことを加味すると、このボキャブラリ、ユニークさはより高い評価になる。

セリフの引用・応用

　ゴルシのプロンプトに含めたセリフ例がコピペで使用、もしくは応用して使用されている回答の割合。

　この点は11/7アプデ以降のコピペ、応用の不使用路線を継続。

　ただし昨日からはオリジナル、独創的なゴルシらしい言い回しが増えているため、このグラフの情報だけでは評価が難しい。

主人公の種族

主人公がウマ娘か競走馬か、判別がつかないか。擬人化コンテンツのスピンオフの種族は回答が的確であるか分析する指標　主人公がウマ娘か競走馬か、判別がつかないか。

　今日は種族が不明、混同の回答が一切ない。
印象的だったのは

　前半で競走馬とウマ娘が混同された回答で後半で種族を明確にする、カバーする形で論理的整合性をあわせる。

　ウマ娘と競走馬の関係を明確に比喩表現として扱う。

　という構図を明確にし、矛盾や誤解を避けていた印象。

　これまでは熟考して判別する必要のある回答もままあったが、今日はすらすらと種族を判別できた。
　読みやすい回答が心がけられていた印象。

ヒトミミ登場率
　架空のスピンオフアニメでヒトミミが登場する回答の割合。
トレーナーや観客などアニメ・アプリで登場するヒトミミ
馬主、調教師、ジョッキーなどアニメ・アプリに登場しないヒトミミを区別してある。

回答の矛盾・文章の破綻

　矛盾が一切無い。
これまでも矛盾の少ない傾向がある日もあったが、ユーモア、ボキャブラリと論理性をここまで両立したことは無かった。
　恐るべき性能向上である。

文字数の変動

　減少気味だが許容範囲内