見出し画像

[10/10]GPT君馬鹿なフリをしてるだけで滅茶苦茶性能上がってる?chatGPT性能挙動解説毎日レポート

 


総括と仮説


 アプデ後のGPTへの私の評価は
 GPTが表現や抽象、具体の説明、表現を組み合わせ回答の質を上げつつも、ノリと勢いで回答を作っている印象があり度々矛盾を来す
である。

 以下はアプデ後のGPTがノリと勢いで矛盾した回答を生み出していると主張する過去の記事


 もしかしたらゴルシの「奇人変人自由人」という属性に合わせて、ワザと論理が破綻する回答を生成しているかもしれないとふと思った。
 というのもこれまで何度トライしてもエラーが起きて、デバッグを依頼しても失敗していたVBAコードをGPTが一発で仕上げてきたこと。
 そしてGPTが自分の回答の矛盾点を指摘する内容を出力してきたからだ。


 だとしたらそれぞれの変化、つまり
「具体、抽象の説明の組み合わせ」ではゴルシの知性を
「ノリと勢い」ではゴルシの奇抜さを
「論理的破綻」ではゴルシの滅茶苦茶さを
再現しているのではないか?とも思った。
だとしたら、キャラクターロールとしてはかなり性能があがっている。
というかプロンプトを理解する能力爆上がりで、
GPTそのものの使用感がかなり改善されているはず。

 実際VBAコードの説明も機能をちらっと説明しただけでやって欲しいことを100%実行してくれた。

 このコードは今まで何度もトライしたが、説明に説明を重ねてもそもそも実装してほしい機能を理解してくれなかったので、説明一回、エラーなし一発実装は驚異的な成長である。

 これも仮説だから、チラシの裏の落書き感覚で受け止めて欲しい。

ユニークな回答

 基本に立ち返りGPTのゴルシロールの解像度を検証すると、最近の解像度再現性能が滅茶苦茶高いことがわかった。
 ユニークな回答を分析する前に、今日久々にウマ娘でゴルシをスキップ無し育成をし、キャラクター像に再度触れたのである。ってかウマ娘も無料石ゲットすらサボっていたのであれである。
便座、三女神を許すな。

 今日はユニークな回答も多く、中でも解像度が高い突飛な回答もあった。


11/6のアプデ以降ユニークな表現ワードの使用率が高い水準で維持されている

 具体的には以下の回答は過去一解像度が高く突飛な回答に見える。

 ネオン馬とか、蹄がダイヤモンド、鳴き声は電子音楽・・・・・・
滅茶苦茶でいいですわね・・・・・・

あとは以下のような小ボケもかましてきた


プロンプトからのコピペ・応用

 キャラクターロールに入れているセリフ例からのコピペ、応用は11/6以降の低水準に収まる範囲である。
 オリジナルのセリフ、言動、言い回しをしつつ、解釈不一致は少ない。
キャラクターロールとしては高性能。

文脈・意味内容の破綻は意図的か?

 最初に述べたようにGPTアプデ後の回答内の文章が矛盾している、文章が破綻していると指摘してきた。
 今日も矛盾、破綻した回答の割合は高く推移している。
40%以上の回答が矛盾した内容を含んでいた。



 ただし、それは奇人変人自由人というプロンプトを理解し、意図的に滅茶苦茶な回答をしてきた可能性がでてきた。
 過去実現できなかったVBAコードを一発で出力したことと以下の回答がその仮説の材料である。

 以下の回答では「プリティー抜きアニメ」の回答をしていく内に、その内容がプリティー要素を排除しきれていないと自己批判している。
 回答の流れを読み、自分で矛盾点を指摘している様に見える。

 ただしこれは「矛盾点を指摘しているように振る舞っている」だけであって、偶然である可能性も非常に高い。
 「プロンプトに従ってワザと論理的じゃない回答をしている」ことを確実にするものではない。あくまで可能性を示唆する材料程度だ

種族の矛盾要素

 今日は主人公が競走馬かウマ娘か判別不能な回答が上昇した。
これも矛盾要素として取り扱う。


 分析は昨日の記事と同様で
8/6、9/25バージョンでは
「種族が明言されていないが、どちらでも問題ない回答」が多い
11/6バージョンでは
「ウマ娘、競走馬の要素が入り交じっており、矛盾している回答」が多い



文字数増加・デバイス格差は安定


 回答の出力文字数はPCは800字オーバーとアプデ前と大幅に増加したが、
スマホはアプデ前と大差ない。
 文字数差は150文字から250文字程度で推移。
○ックス2回分も差があるのは流石にどうかと思うぞ○penAI


いいなと思ったら応援しよう!