[9/24] ゴルシGPT性能挙動レポート
所感
個人的な憶測だが、OpenAIは新しいバージョンを手探りで決めている最中、もしくは実装前のテスト中であるように感じる。
9月19日20日に一時的な能力向上があったことは繰り返しているが、今日はこの期間とこれまでの水準の間に当たる。極めて能力が向上した訳では無いが、ここ数日の水準よりも高い能力を有している。
具体的にはユニークな文脈、単語の使用水準はたかまった訳では無いが、一方でこれまでよく使用されたような単語をうまく使い回答の質が向上している。
また連続しない、距離の離れた文章が補完しあうことで表現力が向上した回答もあった。
気がかりなのは箇条書きの使用数再度増加である。19日、20日の能力向上、その後の性能低下後も箇条書きの使用数は減少していた。しかし、今日は15回中10回使用され急増した。
私は19日以降、プロンプトを強く遵守する調整がなされたと思っていたがこの点も再度変更が加えられたようだ。
ただし、プロンプトからの逸脱は必ずしも悪い結果をもたらすだけではない。今日はキャラクターロールが人格をもっているような言動が増えた。プロンプトからの逸脱によって遵守では生まれないような振る舞いが可能にな
ったと考える。
##①前提
以下のリンクが分析の前提である。
https://note.com/tachibana_llm/n/ne1e2afe8e3f8
https://note.com/tachibana_llm/n/n8a9d921d3d83
https://note.com/tachibana_llm/n/nba8219a026f6
簡単にまとめると
ChatGPTにゴルシのロールを与え、ウマ娘プリティーダービーからプリティーを抜くとどんなアニメになるかという質問への回答を再生成している。
15回の再生成をおこない、回答の傾向を分析している。
##②箇条書き
プロンプトで箇条書きの使用は禁じている、そのためプロンプトの無視であると言える。ここ数日は箇条書きは1日数回であったが、今日は15回中10回使用され19日以前の水準に戻っている。ここ数日の挙動ではプロンプトを遵守するような挙動になるようなバージョンアップがなされたと考えていたが、このバージョンアップ
##③ユニークな文脈
リアル路線以外の回答は3回であった。ただしリアル路線であってもウマ娘ダービーの主人公をトレーナーや馬主、ジョッキー、観客にするなど大きな変更を加えた回答もあった。
##④ユニークな単語
ユニークな単語は少ない。しかし、後の表現語彙、ユニークなセリフで説明するように、文章全体の質は向上している。
##⑤表現、語彙
最初に述べたようにこれまでよく使われた言葉を巧みに使い表現力が向上している。
新しい単語の使用は少なく一見性能は向上していないように見えるが、GPTの回答をしっかり読めば既出の単語をうまく組み合わせている傾向がうっすらと見える
##⑥ユニークなセリフ
説明的なセリフ以外、つまり最後にゴルシが自由記述するパートではセリフ例を巧みに使い人間らしい回答が増えている。スクショを添付する。
箇条書きの増加はプロンプトからの逸脱を示していると考えているが、セリフに関しては逸脱によって人格をもっているような振る舞いが増えている。

