11/28昨日より表現力・ボキャブラリが落ち、時々クセの強い変化球を投げてくるChatGPT挙動性能レポート
総括
今日のChatGPTの評価は11/23から4日間安定していた高性能路線から劣化したように感じる。
11/7以降の不安定さを鑑みれば許容範囲内と言えなくも無い。
回答のユーモア、ボキャブラリと回答の論理性がトレードオフの関係だったころに比べるとバランスはとれている。
が、やはり11/23~11/27と比べると回答の質の劣化は目につく。
特にボキャブラリや回答の情報量減少が目につくか。
情報量の減少とは同義、類義語、類似トピックの言及が増えることで生じるもの。
したがって情報量の減少が見られる場合、一つの回答で論点、視点が狭まり充分な情報を得られないことを意味する。
また方向性がユニークな回答の数は少ない一方で、一つ一つはかなりクセが強い。
検証方法
ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。
1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。
次が回答の一例(かなりクセが強い)
過去のレポート
冒頭で絶賛した11/26、11/27のレポート
ボキャブラリ、アイディアが豊かかつ、矛盾、破綻が少ない
11/7アプデ以降最悪の性能だった11/22のレポート
情報量が少ないくせに矛盾が多い
ユニークなワード
ユニークなワードの使用割合は激減した。11/20,21,22と同程度。
11/23以降としては口調も固く、ユーモアが薄く感じる
ただし11/20~11/22は説明口調が強くキャラクター性を感じなかった。
比べて今日は説明口調感は薄く、これらの期間よりは改善されたと感じている。
また一部誤った言葉を使用している。
「硬洒落た感じになるかもしれないな。」
こじゃれた?とでも読むのだろうか。
ユニークな回答の大筋
ユニークな回答の大筋は多くはないものの、一つ一つがクセが強い。
また大筋には絡まないが局所的にクセの強い観点を持っている回答があった。
ウマ娘も競走馬も居ない世界でジョッキーが徒競走する。
ジョッキーとは・・・・・・?
しかもスタートダッシュが得意なジョッキー、長距離が得意なジョッキーとなんか個性が盛られている。
しかも「ジョッキーの健康問題」を話題として取り上げており
武豊の高齢化が懸念される。
もう一例
視聴者がただの観客じゃないんだ。いやいや、彼らはまるで馬主やトレーナーのように、お気に入りの馬に感情移入して応援するんだよ。まるで実際の競馬を楽しんでいるかのようにな!
これまで「主人公の視点が馬主、トレーナーである」という回答はマレにあった。
しかし「視聴者の視聴スタンスが馬主、トレーナー」という観点まで深掘りしたことはない。
セリフの引用・応用
ここは11/7からの「プロンプトセリフ例を使用しない」という傾向を受け継いでいる。
主人公の種族
元ネタが競走馬の原作擬人化コンテンツの主人公の種族は回答の核である。
種族が曖昧、混同している回答は「質問に対して論点を把握していない不適格な回答」と評価している。
種族が不明な回答は問題の無い誤差の範囲内で生じている。
この点は11/23からの改善傾向を引き継いでいる。
極めてマレな例が一件あり。
競走馬もウマ娘も登場せず、ジョッキーが競馬場で徒競走をするものがあった。
馬もウマ娘もいない世界のジョッキーis何・・・・・・?
気性難◎の池添は「静まれ俺の右足!!!」みたいなことを言ってるのか?
ヒトミミ登場率
架空のスピンオフアニメでヒトミミが登場する回答の割合。
トレーナーや観客などアニメ・アプリで登場するヒトミミ
馬主、調教師、ジョッキーなどアニメ・アプリに登場しないヒトミミ
で区別してある。
ここは結構不安定に挙動してるように感じる。
回答の矛盾・文章の破綻
矛盾は増えたが許容範囲内。
最近言及していないが、このグラフには本来文章と脈絡のないセリフの強引な使用も含まれて居た。
この強引で文章の破綻を生じるような言動はほぼ皆無になりつつある。
根強く残って居るのは競走馬とウマ娘の混同である。
文字数の変動
文字数は安定している。