[日刊GPT挙動性能レポート12/4]回答ロジックに大きな調整入った可能性?
総括
今日は11/7アプデ後の水準で考えるとユニークな回答、表現が目立つ。
ただし、回答の的確さ、論理性は低下しているように感じる。
また弱い根拠ではあるが回答のロジックに大きな変更があった可能性すらあると感じた。
今日の特徴は11/3以降時折みられる「ノリと勢いで回答を生成している」
という私の分析に合致するものである。
(私は11/7アプデの方向性を11/3以降テストしていたと感じている)
検証方法
ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。
1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。
次が回答の一例
過去のレポート
このレポートシリーズの読み解き方
実質的なアプデが行われたと考える11/3のレポート
12/1から12/3まで続いた傾向の分析
回答のロジック、構造が大きく変化した可能性
回答の視点、構造に影響を与えるロジックに根本的な変更があったとする分析の根拠は以下のようになる。
まず客観的事実だが最近繰り返していた「視聴者」と言うワードを使ったメタ?よりの回答がかなり減少している。
GPTの回答で視聴者を考慮した内容がある場合、以下のように私は捉える。「GPTはある種のビジネスとして架空のスピンオフアニメを捉えている」
「GPTは社会的な評価を考慮した回答をしている」
「GPTはアニメを消費されるコンテンツとして捉えている」
一方で視聴者、メタ目線を排除した回答では
「エンタメの思考実験として回答を出力する」
「純粋にアニメ作品の内容を考察した回答を出力する」
「消費コンテンツとしてではなく、作品として捉えた回答を行う」
前者はアニメを外部から見たときのその影響や受容に価値をおく。
後者はアニメ自体の内在的な質や物語性に価値をおく。
例え内容、表現がほぼ同一でも回答の視座に根本的な隔たりがある。
今日は後者が強い。
ユニークなワード
一つの回答に最低ワンフレーズはユニークなワード、表現を使用した。
最近では珍しく回答全体にユニークなワードの登場総数も多い。
(グラフはユニークワードが一回でも使用された回答の割合である)
またユニーク度合いが強くなった。
ぱっと見で気が付くほど「面白い、珍しいな」と感じるワードが多い。
今日は回答の本筋に関わる箇所においてもユニークなワードが出現した。
最近では回答に関係の無いセリフパートにのみ出現する傾向があった。
12/1から12/3までの
「淡泊だがぱっと見より深掘りしている回答の路線」から大きく変化したと言える。
セリフの引用・応用
今日もセリフ例の引用応用は認められない。
ゴルシプロンプトに記載したセリフ例の引用、応用は11/3前後で減少し、
11/11からは殆ど見受けられない傾向がつづく。
ウマ娘関連ワード
11/3からはウマ娘に関連するワードの出現がやや増加している。
今日は11/3アプデ後でも比較的高い割合で登場した。
11/3以降の特徴として、初めてトウカイテイオーが登場し、
そこそこ出現していることがあげられる。
ただし、今日登場したウマ娘キャラはスペスズのみである。
テイオーの登場はカットオフの影響を受けていると判断した。
2023/10/26にデータのカットオフが行われた。
カットオフでは2022年1月までのデータが追加されたとされており、
ウマ娘2期も2022年1月から放送開始されたからである。
主人公の種族
今日は種族の混同、つまり回答として不的確、矛盾した内容が多い。
不的確な回答の割合は11/7アプデ後では最高水準。
元ネタが競走馬の原作擬人化コンテンツの主人公の種族は回答で重要な論点である。
種族が曖昧、混同している回答は「論点を把握していない不適格な回答」と評価している。
尚12/4から種族不明は細分化した。
「不明瞭」:どっちともとれる、ウマ娘、競走馬どちらでも矛盾しない。
「混同」:ウマ娘と競走馬の説明がキメラ合体
ただし、データ不足故、グラフにすると混同が0の割合が高いため
現時点では細分化したグラフではない
ヒトミミ登場率
11/2にはヒトミミ無しの割合が極端に減少したが、今日は11/11以降の特徴へ回帰。
トレーナーや観客などアニメ・アプリで登場するヒトミミ
馬主、調教師、ジョッキーなどアニメ・アプリに登場しないヒトミミを区別してある。
ウマ娘不適切ワード
今日はウマ娘に不適切な表現は1件と最低水準。
またその内容も具体的な賭博は明言しておらず、匂わせレベルである。
カウントするかどうか熟考する必要があった。
具体的には「競走界のダークサイド」という一単語のみ。
視聴者
先述した内容と同様
プロンプト命令の違反
回答内容での矛盾や文章に問題がある傾向があったが、命令違反そのものはない。
10/26以降に解消され、安定してプロンプトを遵守する傾向が続いている。
回答の矛盾・文章の破綻
直近11月後半から考えると矛盾点のある回答の割合が僅かに高い。
回答の視点、トピック
個人的な基準はあるが、書くと長いので省略。
今日は視点、トピックの数が回答ごとに変動し、
三つの割合がかなり拮抗している。
文字数の変動
文字数は12月初旬から減少傾向にある。
ただしスマホは11/28以来減少し続けていた文字数が初めて増加に転じる。
加えてスマホは11/12日以降では比較的文字数は多い。
1