ゴルシChatGPT4性能・挙動レポートの目的・前提
このシリーズでは可能な限り毎日ChatGPT4の回答の特徴、変化を分析した情報を提供する。
目的
①OpenAI、ChatGPTからのアナウンスないモデル調整やバージョンアップ、なんらかのエラー発生をある程度信頼できるように確認する
②同じ質問文への回答再生成により、「なんとなく違う」ではなく、ChatGPTの変更、エラーを明確にする。
③試験の正答率や攻撃的質問文へのChatGPTの反応をミドル、ロングスパンで観察するアカデミックな分析とはことなり、短いスパンでの変化を分析する
テストの前提
使用するプロンプト:アプリ版ウマ娘プリティーダービーのゴールドシップの再現キャラである。(二次創作に厳しいコンテンツであるためプロンプトは非公開とする)
質問文:「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で統一する
手法:回答を記録した上で、回答の再生成を行う。最低1日15回の再生成をおこない、分析する。
用語の定義
『ユニークな文脈』
「『ウマ娘プリティーダービー』から『プリティー』を抜いた結果として『リアルな競馬アニメ』になる」という回答以外を指す。
つまり、リアルではない非現実的なレースや日常物、バトル物の回答をユニークな回答と定義する。
『ユニークな単語』
プロンプトや原作ウマ娘からは想定されないような単語、フレーズを指す。 文脈に影響を与えない程度のものであるが、一部文脈を変更するものも含まれている。 ただし、プロンプトに直接含まれていないが連想すれば出力されるような単語も含める。
今後別の記事で補足を行う