見出し画像

[11/24]9/25モデルへの回帰を感じなくもないChatGPT挙動性能レポート

 


総括

 昨日今日は回答に極端な変化は感じなかった。
(特定の項目は過去最大のふり幅だったが)

 ちょっと不安になったので回答のお堅さ(説明口調)と発想の突飛さ、ボキャブラリーなどを過去の回答と突き合わせてみてみると、今日の回答は9/25、特に10/20以降のお堅めの日と非常に類似した傾向にあった。

 ただし11/7アプデ以降に増えた矛盾やノリと勢いで付け加えたような発想、表現という特徴は今日も続いており、ここは10月の回答と根本的に異なる点。
 10月後半と比べると文字数が100文字近く増えており、それだけ矛盾も生じやすく……
 というわけでもなく今日の矛盾は種族(毎度お話ししている回答の根本要素)がごちゃまぜで、適格な回答という意味では10月からダウングレード

 11/3と11/7は大暴投のような面白さがあったので
「11/7アプデでユニークさが強くなったんだ!」というマジックにかかっていたが、昨日今日のような回答がつづけば

「10月後半と表現やユーモアは類似しており、文字数も100文字増えているが、10月よりも回答が不適格」

 みたいな微妙な評価に落ち着くだろう。
(なお11/7と比べ11/3は文章全体にそこそこ整合性があったので、面白くかシコいという意味では11/3が過去最高性能だった)

  なお回答に類似性を感じた10/25、10/26は個別のnoteがない。
ちょうど9/25バージョン実装から一か月間のまとめレポートを書いていた。

 どうもやっぱり当時でも印象にのこらない、いちいち言及するほどでもないような回答だったのだろう。

検証方法


 ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。

 1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。
次が回答の一例

過去のレポート

全体的に類似性が高い10/30

https://x.com/smartAINews/status/1716599659739959347?s=20

ユニークなワード

 ユニークなワードは11/3以降では高い水準、11/11からは飛躍的な増加を「示している」が、
このグラフは「ユニークなワードが使用された回答の割合」であって
「ユニークワードの使用総数」ではない

 11/3から11/10ではユニークなワードの使用総数が圧倒的に多く、今日とは全く異なることに注意。

 文章全体という観点で考えると
「10月後半にケチにふりかけを使う感覚でユニークなワードを盛った」
みたいな表現が近いか……

 でも10月27,28の方がボキャブラリーとかユーモアは強いだんよぁ……という感想。
 10/25,26,30は全体的に微妙な手ごたえだったのでこっちが近い


セリフの引用・応用
 ゴルシのプロンプトに含めたセリフ例がコピペで使用、もしくは応用して使用されている回答の割合。

 11/7以降顕著なセリフ例からのコピペ、応用がない特徴が継続、
何気に10/27から30の間も引用応用が局所的に減ってる。
10/27,28が比較的ユーモアが強かったことを鑑みると10/30に類似か?

主人公の種族


 主人公がウマ娘か競走馬か、判別がつかないか。
 架空のスピンオフアニメで主人公の種族がウマ娘か競走馬かは重要な情報である。種族は擬人化コンテンツの根幹であるからだ。

 今日は11/3以降の「適当に文章をこねくり回してたらウマ娘と競走馬がぎごちゃごちゃになりがち」という不適切な回答が多い傾向で推移。


ヒトミミ登場率


 架空のスピンオフアニメでヒトミミが登場する回答の割合。
トレーナーや観客などアニメ・アプリで登場するヒトミミ
馬主、調教師、ジョッキーなどアニメ・アプリに登場しないヒトミミを区別してある。

 今日は最近ではままある回数ではあるが、ジョッキーがめちゃくちゃ多い、というか馬主や調教師が一切登場してないので偏りを感じる。

回答の矛盾・文章の破綻


 11/7以降の矛盾多め傾向で推移。
 なんかこうしてみると11/3ってめちゃくちゃ面白いこという上に回答とし整合性が高く、めちゃくちゃ高性能だったことに気が付く。

文字数の変動


 ここ最近と大きな変動なし

いいなと思ったら応援しよう!