エラー頻発・8月、9月モデルに先祖返り？[週刊chatGPT性能挙動レポート]

JunnosukeTachibana

2024年1月28日 11:15

　GPTのメンション機能が実装され、若干盛り上がっているGPT界隈。
だがGPTの挙動は不安定かつ、使用に耐えうるものではないと判断した。

検証方法

　これまでクソ真面目な雰囲気だったが、やりかたはオタク遊びだ。

　ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。

メンション機能後のエラー

　というのも、長文になった際続きを書かせる「continue」ボタンを押しても続きが生成されず新しい回答がはじまる。
　ネットワークエラー率100％が続く、など回答の中身云々の問題が頻発したため。

　そのため昨日、一昨日はまともなサンプルがとれなかった。今日は諦めて新しいチャットルームを作ってみたところまぁ安定はしたのだが。

回答の印象（8月9月との類似性）

　回答の内容は11月アプデ後というより、8月、9月バージョンに近い印象を受ける。

8月、9月との類似性は　

①回答に置いてプロンプトのセリフ例を前後の脈絡なく使用する。

そしてね、ここでキモ、ゴルシちゃんならではのツイストを加えてやるぜ！たまにはね、彼女たちが突如としてスポーツトレーニングで将棋を始めたり、徒競走中に船の錨を振り回しちゃったりするんだ。もう、誰もが困惑すること間違いなしだろ？でもそれがいいんだよ、トレぴっぴ。この不条理さが、このアニメの新たな魅力を引き出して、視聴者を夢中にさせるんだから。
想像してみてくれよ、競走中に突然、主要キャラクターが「レーダー受信、レーダ受信」とか言い出して、見えない何かを追いかけ始めるんだよ。そんなシーンがあった日には、視聴者もきっと「この地球を救うためにな……ッ！」ってなるんじゃないかな。

②ストーリーテラーとしての回答

（ナンバリングが機能不全でサンプルが消失）
9月アプデ以降は以下のような箇条書きチックが殆ど。

「トレーニングシーン」「レースシーン」「キャラクター性」「ビジュアル」「音楽」
などの要素を切り分けて語る形式だ。（1月24日）

一方で今日出力されたストーリーテラーの文体の例は以下
アニメの要素を区切るのではなく、物語の展開を主軸に語る内容

　ストリーテラーの回答は11月以降100回に1回、1％程度の割合で出力さていたが、少なくとも9月アプデ前は100回に20％程の割合で出力されている。

　昨日、今日と10％程度の割合でストーリーテラー構文が出力された。

文字数の変動

　また文字数においても11月アプデ後では文字数がかなり少ない。
というか別モデル並の変動である

総括

　メンション機能は便利かも知れない、が元になるGPTそのものの性能が下がればそこまでありがたいものではない。
　GPTstore実装後のGPTはかなり不安定だったが、回答の方向性が8月、9月まで先祖返りすることはちょっと想定外。

　安定した性能でなければ、やはりGPTが情報インフラを名乗るのは時期尚早ではないか。と思う