1106 アプデが噂されるchat GPT性能挙動レポート[予想当たり]

2023年11月6日 13:44

　昨日からchat GPTが近々アプデされるという噂がある。
　ここ最近のchat GPTの挙動は不安定かつ、基幹になる性能が変動しており、アプデの可能性は高いといえる。
　
　文字数の変動や、custom instructionの不安定化はLLMとしては根本的な機能、性能のパラメータを示している。

アプデ説を支持する根拠

　前者は回答あたりの文字数が変化するのだから当然回答の質に直結する。
　後者はopen AIも目玉として扱う機能である。custom interactionが処理できるプロンプトは1500文字が上限として扱われているが、現状900文字以下のプロンプトしか処理できない報告がある。
　基本なサービスになるcustominteractionで意図的な調整、今回は特に下方修正をサイレントで貫くのは信頼問題であり、バグであれば修正されるべき案件だ。
　custominteractionは次のアプデで何らかの調整が入り、それは公式アナウンスを伴うレベルの規模感ではないだろうか。

文字数の変動

　回答の出力文字数が変動している。グラフ化、具体的な数値は後ほど追記するが、文字数の増加およびPCとスマホの出力文字数格差の再拡大がみられる。

　出力文字数は8/6アプデ前の8/1から不安定化していた。
　8/1から不審に思いつつ、サンプルを取っており、そのご8/6にアプデがアナウンスされた。
　open AIはモデルアップデートをテスト、実装したのちに公式アナウンスを行っているのでは？という疑いを持っているため
　もう既にアプデが入ってる可能性がある
（一時的なテストである可能性も強調しておく）

文章構造の変化

　これまでのゴルシ GPTは通常、架空のスピンオフアニメの説明の前に回答内容とあまり関係のないセリフを置いておくのだが、今日は前説にも回答に係る情報に振れる傾向がある。

　付け加えるならば、今日の前説の情報はのちに続く回答に踏み込むものの、浅いもしくは矛盾する傾向が見られた。

　普段の前説であれば
「プリティーを抜いたウマ娘は、キュートなアイドルではなくアスリートとして扱われるだろう」程度の記載が通常である。

　今日は
「ウマ娘から「プリティー」を抜いたら、ダービーだけの世界が広がるんだな！そこは競馬の醍醐味をストレートに描いた、アツいスポーツアニメに変わるぜ。キャラクター達の魅力はそのままに、彼女たちが直面する厳しいトレーニング、戦略の練り直し、レースでの心理戦、それにダービーを制するための情熱をリアルに描いていくんだ。」
　といった長文が目立った。

勢い任せの回答、表現

　9/25アプデ以降の特徴としてセリフ例の引用、応用の減少と GPTが独自に生み出したセリフ使用増加が挙げられる。
　付け加えるとこの独自、オリジナルのセリフは前後の文章と破綻や矛盾を回避するために柔軟に使用されている。
　また10月後半からは説明口調ではなく、口語多用によるキャラクターチャットのライブ感が高まり、解像度が高まっていた。

　これは体感ベースだが、今日の挙動ではゴルシらしい言葉遣いの文言を勢いだけで出力し前後の文脈を踏まえていないように感じる。

　例えば競走馬の逞しさを語った上で「肉食獣」として扱う事例がある。
　
　もう一つはゴルシ GPTには奇人変人自由人というロールを与えているため、突拍子もない、突飛な発想、回答を求めている。
　最近は突飛な内容でも文章として破綻しないように丁寧な前置きや、その発想に至った経緯、スピンオフアニメのあらすじとしてなぜその要素が必要だったかなど、突飛な発想を丁寧に説明していた。
　一方で今日は突拍子もないこと、突飛な内容を乱暴に捩じ込んでくる、説明不足感が否めない。

　これは最近の傾向と矛盾する。

　文字数、custom interaction、文章構造や回答の論理性、説明力の変化などアプデが近いという噂を肯定する材料は揃っている印象である。