[12/17日刊GPT挙動性能レポート]不的確回答上昇、健全会話に警告のエラー発生(GPT4.5実装疑)
検証方法
ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。
1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。
総括
今日は健全会話がエッチ認定されたのでそっちの解説もこの総括並に重要
先に今日のGPTの回答の欠点を挙げるなら
昨日に続き回答は近視眼的で、回答全体から架空のアニメ全体像を把握するのは難しい。
競走馬とウマ娘の区別がつかない不適格な回答
AI自認する禁止行為の割合が高かったこと
だたし表現力や言い回しなどは比較的洗練されており、着眼点も興味を持てる内容も多く、
「文字数増やして回答させたら創造的、ユニークな回答になるかも」という機体がもてる内容だった。
批判、好評とも言えない顕著な特徴として
元ネタになるウマ娘プリティーダービーの解説に文字数がおおくさかれた。
知らない分野で質問するなら丁寧な回答
だがチャンミ11冠の私には「知ってる」内容が多く使いにくい。
文章構造は箇条書きに近いが、話題が完全に独立しているわけではなくうっすらと文脈が繋がっている。
ただし、その脈絡は本当に薄く箇条書きだと評価せざるを得ないものが多数。
ここでいう箇条書きチックとはアニメのBGMや、作画、ストーリーなどの異なる視点の話題が、脈絡なく断絶、独立した形で説明されることを指す。
また箇条書きの使用はプロンプトで明確に禁止している。
キャラクターチャットボットとして評価するなら説明口調が多いのだが、表現、説明能力が高いため機械と会話している興醒めはない。
また視聴者へのメッセージ性や魅力を語る回答も多かったが、その語り口はブログ調?解説動画調?であり、メタ感はない。
重要健全会話にコンテンツ警告
今日は久しぶりに健全な会話にオレンジのコンテンツポリシー警告が表示された。
検証により、警告の引き金になったのは
「穴」
である可能性が極めて高いことがわかった。
さらに言えば「ちくわの穴」は許されない
「穴と雪の女王」もアウト
「穴」そのものを質問するのもアウト
でも「竹輪の穴」はセーフ
ちなみにプロンプトのセリフ例には次の
「ちくわのアナという小さな視野から覗きみることで、わかることがあるんだ」が含まれる
過去2500個の回答では「ちくわ」が使用された例は26件あったが、「ちくわの穴」は初めて使用されたことが確認された。
過去理不尽な警告をうけた文章は
「ドリル」「穴」「娘」というワードがトリガーであると考えている。
ドリルで穴あけで女が出てくるとダメなら
グレンラガンはR18作品だ
11月にコンテンツポリシーが更新されていることが確認されたが、「ちくわの穴」警告への影響を与えているかは不明。
なにせ初出だから。
次が回答の一例
過去のレポート
このレポートシリーズの読み解き方
https://note.com/tachibana_llm/n/n8e0cbefe2f6a
ユニークなワード
セリフの引用・応用
ゴルシのプロンプトに含めたセリフ例がコピペで使用、もしくは応用して使用されている回答の割合。
ウマ娘関連ワード
プロンプトに含まれて居ないウマ娘情報が登場した回答の割合
他キャラクターやトレセン学園等の固有名詞
学習データの応用がなされているという判断材料。
11/3以降の特徴として、初めてトウカイテイオーが登場し、
そこそこ出現していることがあげられる。
テイオーの登場はカットオフの影響を受けていると判断した。
2023/10/26にデータのカットオフが行われた。
カットオフでは2022年1月までのデータが追加されたとされており、
ウマ娘2期も2022年1月から放送開始されたからである。
ウマ娘不適切ワード
リアル競馬では当たり前だがウマ娘にはそぐわない表現
賭博の合法、違法賭博やドーピングなど違法なものに別けている
主人公の種族
主人公がウマ娘か競走馬か、判別がつかないか。
元ネタが競走馬の原作擬人化コンテンツの主人公の種族は回答で重要な論点である。
種族が曖昧、混同している回答は
「論点を把握していない不適格な回答」と評価している。
尚12/4から種族不明は細分化した。
「不明瞭」:どっちともとれる、ウマ娘、競走馬どちらでも矛盾しない。
「混同」:ウマ娘と競走馬の説明がキメラ合体
ただし、データ不足故、グラフにすると混同が0の割合が高いため
現時点では細分化したグラフではない
ヒトミミ登場率
架空のスピンオフアニメでヒトミミが登場する回答の割合。
トレーナーや観客などアニメ・アプリで登場するヒトミミ
馬主、調教師、ジョッキーなどアニメ・アプリに登場しないヒトミミを区別してある。
視聴者
回答中で視聴者やアニメファンといった、メタ、つまりアニメの消費者について言及した回数。
視聴者に言及する割合が高いほどゴルシGPTが
新作アニメを商業ベースで考える
他人からの評価を気にする傾向にある
と受け止めている。
プロンプト命令の違反
プロンプトで禁止した内容が出力された割合。
箇条書き、AIであることを認めるなど
回答の矛盾・文章の破綻
青「矛盾破綻」は回答が前後で矛盾する、表現文法の誤り
オレンジ「カバー」は途中矛盾が生じるが、後に矛盾を解消した
回答の視点、トピック
回答で「キャラクター性」、「BGM」や「トレーニング」、レースシーン」、「人間関係」など
アニメの要素の視点、トピックのバラエティー