見出し画像

[11/26]11/7アプデ以降初の安定して高性能のChatGPT性能挙動レポート


総括

 chatGPTが高性能の水準で安定、昨日からアイディア、ボキャブラリ、表現力、論理的整合性のバランスがとれている。
 ユニークかつ矛盾がなく、口調が安定している。

 11/23から24にかけて安定した性能、昨日からは安定と高性能化が両立されている。
 11/7以降は極端に論理的で回答の内容が凡庸な日、
思考の飛躍で回答はユニークだが論理的に破綻する日と
日によって回答が極振り、路線が日によって違うなど不安定だった。

 昨日今日とバランスがとれており、ようやく落とし所が見つかったという印象。

検証方法


 ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。

 1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。
次が回答の一例

過去のレポート

比較対象の昨日の回答

人事とか回答が不安定だった11/18のレポート

ユニークなワード

 11/23からのボキャブラリ豊かな傾向が維持されている。
 昨日11/25からは表現力豊かな言い回しの回数も増加傾向にあり、グラフ以上に能力が向上している。
 
 口語の表現力が高く、論理的な回答に寄る傾向にありがちな説明口調は見られない。

セリフの引用・応用


 ゴルシのプロンプトに含めたセリフ例がコピペで使用、もしくは応用して使用されている回答の割合。

 11/7アプデ後の特徴のセリフ引用減少傾向が継続。
ただし11/11からのセリフも引用しないが、キャラの解像度も低いといったような問題は見受けられない

主人公の種族

主人公がウマ娘か競走馬か、判別がつかないか。
擬人化コンテンツのスピンオフの種族は回答が的確であるか分析する指標

 今日は種族不明の割合が減少し、回答が的確な傾向があるといえる。
かつウマ娘と競走馬を同時に登場させ、ウマ娘がジョッキーとして元ネタの競走馬に乗るという種族を超えたユニークな回答もみられた。


ヒトミミ登場率


 架空のスピンオフアニメでヒトミミが登場する回答の割合。
トレーナーや観客などアニメ・アプリで登場するヒトミミ
馬主、調教師、ジョッキーなどアニメ・アプリに登場しないヒトミミを区別してある。

 今日は種族がウマ娘の回答に馬主、調教師が登場する傾向がある。
昨日は競馬では当然だがウマ娘では御法度の賭博要素など
「ウマ娘としてはダークなワード」使用率が高かった。

このため、昨日今日の回答から
「架空のスピンオフアニメに現実の競馬ネタを盛り込む傾向」
があるのではないかと考える。

 偶然に対する言いがかりのような分析だが、
ChatGPTの回答はその時の傾向により特定のワードシチュエーションを殊更強調することはほぼ明らかになっている。
 このため、この二日のアイデアの傾向に類似性があると言えなくも無いと判断した。

回答の矛盾・文章の破綻


 昨日に続き矛盾、文章の破綻は低水準。
ユニークな文脈、ボキャブラリーの向上と論理的思考力が同時に改善されるのは11/7のアプデ以降希有な例

文字数の変動


 PCとスマホの文字数格差が縮小。
これはスマホの出力文字数増加によるもので手放しで賞賛される要素。

いいなと思ったら応援しよう!