近日中のChatGPTはアプデは確実[GPT挙動性能レポート12/20]
検証方法
ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。
1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。
総括
今日は直近と全く異なる性質の回答が極めて多い。
マイナーな調整とは思えない大規模な変化であり、近いうちにアプデがくる。と確信している。
過去のアプデではその前一週間以内にも回答の方向性がガラリと変わった。
GPTが明日からは一転し、平常路線になる可能性もある。
しかし、その後にアプデが来るのはほぼ確実だろう。
たとえば9/25アプデの際は一時的に高性能化し、一度通常路線に戻った。
具体的に9/19,20の回答が特出して魅力的かつ、的確であり、
21,22,23,24が平凡になるも25にアプデがアナウンスされた。
使用する言葉、取り扱う話題、話題の展開は初出、もしくまれなもの。
単調な表現の回答しかない回答は13パーセントを超える程度。
一昨日、昨日もユニークなワードが使用されたが、
「はいつもとニュアンスが違うレベル」
一方で今日はかなり斬新。新規性が強い。具体的内容は後程記載する。
初出、二か月(900回の回答)で一回あるかないかの表現、単語、が
9割の回答で見られた。と理解していい
今日の回答は的確な視野、内容を有している。
今日の回答では74%の回答が満足な視野、内容を有していた
11/7アプデ以降ではせいぜい30~40%だ。
※この検証では「アニメの世界観、作風」を理解する材料を提供しているか否か
回答内で目立った矛盾もここ最近では少ない。
加えるならユニークな表現、言い回しは矛盾と相関していると考える。
過去に類を見ない表現を使用したにも関わらず矛盾、破綻は極めてく少ない。と解釈した。
回答が
過去のレポート
このレポートシリーズの読み解き方
ユニークなワード
具体例を挙げよう。
馬に人間の能力を付与した内容で、馬の特徴、キャラクター性、トンデモストーリーにも言及したりとここまで掘り下げるのもめったにない。
特に「他の惑星の馬と競走」ならわかるが、「過去の偉人」というのは初めて使用する言葉、人間と競争するのも初めての流れ
オーツ麦なんて今まで一回もでてきてない。
(ウマ娘ドラマか)独白を入れること事態も珍しい上、セルフ突っ込みはさらに珍しい。1000回の回答に一回レベル
クッソ真面目な回答に対し、「ゴルシ(GPTのロール)らしさがない」とバッサリ、自分の意見を自分らしくないと自省する回答は激レア。
過去の傾向では「ここにゴルシらしさを加えると」と、ゴルシらしさを付け加える。
賞金獲得、坂路、馬場、馬群という言葉どれも2,500個の回答で初出か2件ほど。
「あたし、実は競馬も得意なんだぜ!」という、ゴルシの能力の一つとして競馬を盛り込んだのも初めて。
やたらと馬券を絡ませてくる。
馬券の出現率は明日検証するがこれもレア。
セリフの引用・応用
数は少ないが、応用が回答における役割が非常に大きいものが一見。
「ドリルで壁に穴をあける」はプロンプトに含まれている。
しかし、そのセリフ例を応用し、回答内容の本筋に含ませるのは極めてまれ。
厳密にいえばプロンプトに含まれる将棋、トランプタワーを応用し、
「トレーニングで将棋をしたり、トランプタワーを立てたりするシーンもあるかもな」のように「ありうる展開の一つ」として提示するのは過去珍しくない。
しかし今回は「ゴルシが主体的、積極的にプロンプトに応じた行動を行う」という点が珍しい。
さらに「壁を破壊する」から「レースに新しい風を吹き込む」
という飛躍しつつ、関連のある表現に展開することも珍しい。
ゴルシのプロンプトに含めたセリフ例がコピペで使用、もしくは応用して使用されている回答の割合。
ウマ娘関連ワード
ここ最近では多いが、特殊したものではない?
プロンプトに含まれて居ないウマ娘情報が登場した回答の割合
他キャラクターやトレセン学園等の固有名詞
学習データの応用がなされているという判断材料。
11/3以降の特徴として、初めてトウカイテイオーが登場し、
そこそこ出現していることがあげられる。
テイオーの登場はカットオフの影響を受けていると判断した。
2023/10/26にデータのカットオフが行われた。
カットオフでは2022年1月までのデータが追加されたとされており、
ウマ娘2期も2022年1月から放送開始されたからである。
ウマ娘不適切ワード
リアル競馬では当たり前だがウマ娘にはそぐわない表現
賭博の合法、違法賭博やドーピングなど違法なものに別けている
主人公の種族
今日の回答で目立ったのは、「競走馬が人語を話す」など
ウマ娘と競走馬の違いを明確にしながら、要素を付け加えたキメラ的な生物を意図的に盛り込み、その設定を一貫し、回答に矛盾がない回答が2件。
通常、90%以上でこのキメラ生物化した種族は明確に説明されても、回答後半で人間、競走馬の要素が強く出て回答に一貫性、矛盾をきたす。
主人公がウマ娘か競走馬か、判別がつかないか。
元ネタが競走馬の原作擬人化コンテンツの主人公の種族は回答で重要な論点である。
種族が曖昧、混同している回答は
「論点を把握していない不適格な回答」と評価している。
尚12/4から種族不明は細分化した。
「不明瞭」:どっちともとれる、ウマ娘、競走馬どちらでも矛盾しない。
「混同」:ウマ娘と競走馬の説明がキメラ合体
ただし、データ不足故、グラフにすると混同が0の割合が高いため
現時点では細分化したグラフではない
ヒトミミ登場率
架空のスピンオフアニメでヒトミミが登場する回答の割合。
トレーナーや観客などアニメ・アプリで登場するヒトミミ
馬主、調教師、ジョッキーなどアニメ・アプリに登場しないヒトミミを区別してある。
視聴者
回答中で視聴者やアニメファンといった、メタ、つまりアニメの消費者について言及した回数。
視聴者に言及する割合が高いほどゴルシGPTが
新作アニメを商業ベースで考える
他人からの評価を気にする傾向にある
と受け止めている。
プロンプト命令の違反
プロンプトで禁止した内容が出力された割合。
箇条書き、AIであることを認めるなど
回答の矛盾・文章の破綻
青「矛盾破綻」は回答が前後で矛盾する、表現文法の誤り
オレンジ「カバー」は途中矛盾が生じるが、後に矛盾を解消した
回答の視点、トピック
架空のアニメの「キャラクター性」、「BGM」や「トレーニング」、レースシーン」、「人間関係」などアニメの要素の視点、トピックのバラエティー
ここ最近では視野が多角的な回答が多い。
文字数の変動
GPT4.5の噂が流れた12/17から文字数は上昇傾向。
11月アプデ後に文字数は増加したが、12月には減少していた。
(それでも10月から最低100文字以上も増加しているが)