［日隔GPT挙動性能レポート12/19］回答は昨日にくらべ大きく劣化、アプデ前不安定説

JunnosukeTachibana

2023年12月19日 15:01

検証方法

　ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。

　1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。

　ギャグ満載といってるのにギャグがない.
筋肉痛がバンバン出てくる
ロックかヒップホップ、オーケストラとBGMも不明

総括

　11/7アプデ以降と異なる傾向の回答が目立つ。
　ぱっと目につくのは矛盾と異質な表現が増加している。

　一方で昨日よりも全体的に説明、表現力が極端に悪化している。
不安定な要素で、アプデ前の特徴と言えなくもない。
一方でアプデ一週間前に挙動が変化し、安定したケースもある。
（10/19/、10/20）

　アプデを確実と言い張れる材料は多くない、
一方で否定する根拠は全くない

　今日は薄っぺらい回答が多く、印象が良くない。

表現力が豊かな回答は４割減
表現力が陳腐な回答は2.5倍
（４件→10件）

（例えば抽象的、具体的な表現の組み合わせ、類語累積といったレトリックを使用した回答は評価される）

　一つの回答からアニメ全体を想像するが難しい
充分な説明がなされない回答の割合が二倍になった
（５件から１０件）

　また薄っぺらい、興味をひかない回答も３倍近く増加した。
（2件から７件）

気になった表現は

「ぱっと見、馬に特化したアニメ」
馬に特化したアニメとは？競馬という表現は多々ある。

「戦略の練習」
戦略会議、テクニックとして戦略を使う回答はあったが、戦略の練習は初

「ゴルシちゃんもウマ娘になって、走り抜ける風を全身で感じてみたいぜ！」
ゴルシお前ウマ娘じゃないのか！？！？！？！？？！

過去のレポート

このレポートシリーズの読み解き方

昨日のレポート

ユニークなワード

セリフの引用・応用

　ゴルシのプロンプトに含めたセリフ例がコピペで使用、もしくは応用して使用されている回答の割合。

ウマ娘関連ワード

プロンプトに含まれて居ないウマ娘情報が登場した回答の割合
他キャラクターやトレセン学園等の固有名詞
学習データの応用がなされているという判断材料。

　11/3以降の特徴として、初めてトウカイテイオーが登場し、
そこそこ出現していることがあげられる。
　
　テイオーの登場はカットオフの影響を受けていると判断した。
　2023/10/26にデータのカットオフが行われた。
カットオフでは2022年1月までのデータが追加されたとされており、
ウマ娘２期も2022年1月から放送開始されたからである。

ウマ娘不適切ワード

リアル競馬では当たり前だがウマ娘にはそぐわない表現
賭博の合法、違法賭博やドーピングなど違法なものに別けている

主人公の種族

主人公がウマ娘か競走馬か、判別がつかないか。
　元ネタが競走馬の原作擬人化コンテンツの主人公の種族は回答で重要な論点である。
　種族が曖昧、混同している回答は
「論点を把握していない不適格な回答」と評価している。

　尚12/4から種族不明は細分化した。
「不明瞭」：どっちともとれる、ウマ娘、競走馬どちらでも矛盾しない。
「混同」：ウマ娘と競走馬の説明がキメラ合体
　ただし、データ不足故、グラフにすると混同が0の割合が高いため
現時点では細分化したグラフではない

ヒトミミ登場率

　架空のスピンオフアニメでヒトミミが登場する回答の割合。
トレーナーや観客などアニメ・アプリで登場するヒトミミ
馬主、調教師、ジョッキーなどアニメ・アプリに登場しないヒトミミを区別してある。

視聴者

　回答中で視聴者やアニメファンといった、メタ、つまりアニメの消費者について言及した回数。
　視聴者に言及する割合が高いほどゴルシGPTが
新作アニメを商業ベースで考える
他人からの評価を気にする傾向にある
と受け止めている。

プロンプト命令の違反

プロンプトで禁止した内容が出力された割合。
箇条書き、AIであることを認めるなど

回答の矛盾・文章の破綻

青「矛盾破綻」は回答が前後で矛盾する、表現文法の誤り
オレンジ「カバー」は途中矛盾が生じるが、後に矛盾を解消した

回答の視点、トピック

回答で「キャラクター性」、「BGM」や「トレーニング」、レースシーン」、「人間関係」など
アニメの要素の視点、トピックのバラエティー