11/21日刊chatgpt性能挙動レポート今日は悪くない
総括
今日のゴルシも昨日と性質が違う。
やっぱり毎日温度?を微調整してるようだ。
やっぱり11/7アプデ以降は不安定な要素が多い。
なお昨日はあたまが硬いと表現した。だが昨日の21時から今日のユニークではないが望ましい挙動をしていた。
これは私が参加しているウェブサロンから
「今のchatgptの挙動が良い」との連絡を受け検証した。
「不安定って言っても偶然じゃないの?」と言われるかもしれない。
確かに文字数や箇条書きの著しい減少はここ最近安定している。
一方でその日ごと、短期間に変わる特徴がある。
それは過去のバージョンでは安定していた要素がここ最近突然豹変する傾向があるので、過去と異なる挙動であると断言できる場合がある。
ユニークな突飛な発想はないものの、回答全体が弱いバフがかかってるように感じる。そして回答の矛盾、文脈の破綻が少ない。
一言でまとめるなら正統派な回答が多い。
これは回答の使い回しを意味しない。
プロンプトで示したニーズに即した回答が増えた、というべきか。
口語、小憎い言葉回しが増えた。
このプロンプト自体がキャラクターチャットなので口語使用はプロンプトを遵守している
一昨日、昨日と続いた箇条書きの使用がなかった。
箇条書きはキャラクターチャットの性質上禁止しているため、箇条書き使用はプロンプトの原則に反している。
と言っても一昨日、昨日の箇条書き使用はそれぞれ一回ずつだから誤差といえるかもしれない、だが10/25から箇条書きはほとんど使用されてないため軽視できない。
一方で特定の単語に固執する傾向もあった
検証方法
ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。
1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。
ユニークワード

特出してユニークなワードフレーズは少ない。
一方で口語を使用した回答は66%と昨日より高い水準。
従ってユニークワードを使用しなくとも、回答にはバラエティーが生まれている。
セリフの引用応用

やはりプロンプトのセリフの引用、応用は少ない。
これは11/11からの特徴と言える。
ただし11/11以降でも口語、台詞回しの特徴は日々変動しているため一概に同じ特徴を持っているとは言い難い。
主人公種族

今日も昨日のトレンドをなぞっている。
11/15のエラーは一時的なものであろう。
ヒトミミ登場率

昨日は比較的ジョッキーが多かったが今日は11/11からのヒトミミ記載なし60%から80%の範囲内。
回答の矛盾

これは昨日と似た挙動。10/31から不安定な要素である。
ただし昨日はあたまが硬く、説明口調、バラエティーの少なさに起因する論理的能力であった。
それのに対して今日は口語が上手に使えており、その上で矛盾が少ない。
バラエティーを有しつつ論理的であるのは性能の高さを表している。
追記 視聴者

回答に視聴者に言及した回答の変動。
昨日データセットに付け加えた要素。
9/25の前後、11/3前後でレンジの振れ幅が異なるのがわかる。
文字数


文字数は減少したが安定している