[日刊GPT挙動性能レポート12/2]所々エラーが目立つ、内容は淡泊。チャットルームは更新
総括
まずは今日から3代目ゴルシ。チャット数が950回を超えたため、今までのチャットルームが使えなくなった。
同じプロンプト、同じ質問で新しいチャットルームを作った。
10/4までは初代ゴルシチャットルーム
10/5以降が二代目ゴルシチャットルーム
12/2以降は三代目ゴルシチャットルーム
チャットルームが変化したことでどのような影響がでるか検証が必要だろう。
また今日表示するグラフも異なる日付として扱う
12/2旧チャットルーム
12/3新チャットルーム
今日の特徴は4つ
細かな粗やエラーがチラホラある(特に新しいチャットルーム)
回答が淡泊(特に新しいチャットルーム)
全体的に説明口調
文字数の若干の減少(特に新しいチャットルーム)
昨日の特徴は4点
昨日と今日を比較すると以下が目立つ。
触れるトピックが減少
回答は浅い訳では無いが、昨日ほどの掘り下げを感じない
セリフの適切な使用減少
矛盾・文章にミスがある回答の割合は増加
従来のチャットルームでは1.5倍
新しいチャットルームでは2倍
不的確な回答の割合は
新旧チャットルームで共通し3倍増
ボキャブラリ、特徴的なワードが使用された割合は
2代目ゴルシは昨日と同じ
新しいチャットルームでは半減
検証方法
ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。
1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。
今日はいつもと異なり
15回中5回が2代目ゴルシをPCで出力
15回中5回が3代目ゴルシをPCで出力
15回中5回が3代目ゴルシをスマホで出力
次が回答の一例
過去のレポート
このレポートシリーズの読み解き方
比較対象の昨日のレポート
同一プロンプト別チャットルームに切り替えた日
ユニークなワード
旧チャットルームでは昨日とおなじ割合、新チャットルームでは半減。
ユニークなワードも回答の内容に影響を与えるようなものではなく、
言い回しが珍しいレベル。
加えて1単語のみであり非常に淡泊。
昨日の特徴はセリフパートにユニークな表現、ワードが見られた。
説明パートとキャラクターチャットパートを両立していた。
昨日はアシスタントAIにキャラクター性を付与して使用するにはバランスが良かった。
しかし今日は全体が説明口調の傾向があった
セリフの引用・応用
ゴルシのプロンプトに含めたセリフ例がコピペで使用、もしくは応用して使用されている回答の割合。
主人公の種族
種族が曖昧、混同している回答は「質問に対して論点を把握していない不適格な回答」と評価している。
不適切な回答の割合は新旧チャットルームともに昨日の3倍増。
ただし、性能劣化というより「昨日が高性能だった」と評価
ウマ娘不適切ワード
賭博と、動物虐待に繋がるような調教の2例が旧チャットルームに出現。
旧チャットルームは最近の合法不適切ワード使用率が高い傾向にあった。
ヒトミミ登場率
トレーナーや観客などアニメ・アプリで登場するヒトミミ
馬主、調教師、ジョッキーなどアニメ・アプリに登場しないヒトミミを区別してある。
今日は新旧チャットルームともにヒトミミ登場率は最近の中では高め。
視聴者
視聴者に言及する割合が高いほどゴルシGPTが
新作アニメを商業ベースで考える
他人からの評価を気にする傾向にある
と受け止めている。
最近の割合としては平均的かちょっと高い。
少なくとも
10月初旬から増加、
11月初旬からレンジの上振れが増加、乱高下の傾向
11/20からはレンジの下限が高まりつつ、上振れは減少
と理解している
回答の矛盾・文章の破綻
チャットルームで矛盾の割合が急上昇。
また漢字のミスがあった。
GPTの間違い:情熱を賭ける
正しい:情熱を掛ける
音は同じだが漢字を間違えている、リアル競馬の賭博要素に引っ張られた?
因みに最近とんとお目に掛からないカバーは
矛盾する内容、文脈が繋がらない表現を使用した後に
伏線回収するように回答の方向性が変わることで整合性を保つような回答を指す。
11/3から11/7のバージョンアップ周りでは
ノリと勢いと特徴を形容するように、突飛な内容を出力し。
その後、突飛な内容に合わせて回答を軌道修正し整合性を持たせていた。
最近は矛盾、文章のミスを放置し、続きの文章を書いている。
回答の視点、トピック
昨日、今日の新チャットルームではトピックや視点が多いのに対し、
旧チャットルームでは減少した。
細かく指摘するならば、新チャットルームも含め今日は
視点、トピックが少ない割合が増加している。
文字数の変動
旧チャットルームに対して、新チャットルームは文字数が減少した。
ただしそれぞれ誤差の範囲内ではある