[9/25]ゴルシGPT性能・精度検証レポ-ト
所感
ふと二つの考えが頭をよぎった。
昨日はユーザーに断りなく、モデルの実戦テストをしているのではないかと思ったが。
今、モデル変更、バージョンアップやそれのテストをしているのでは無く、GPTの温度を微調整しているのでは?というアイディアが一つ。
温度調整なら毎日ちょこちょこテストしてもコスト、作業量は大きく増えないし、モデルチェンジよりはユーザーにとっても困惑が少ないだろう。
(OpenAIがユーザー目線に立っているかは別として)
温度調整であれば箇条書きの使用などプロンプトへの忠実度がコロコロ変わったり、突飛なことを答える頻度も増減するだろう。
もう一つは新しいモデルを使用しているが、そのモデルにあった温度を探しているため回答の質量が変動している可能性。
つまり、モデルにあった温度が見つかるまでアナウンスをしていないということ。
「これはモデル変えたけど温度調整してるわ」って言われたらユーザーの
「は?俺たちは昨日の温度がいいんだけど!」
「嫌私は今日の方がいいわ!」
みたいな争いが避けられる。
だってユーザーに告知してないんだもの。
昨日の特徴であったプロンプトに入れたセリフ例を改造したユニークなセリフ改変が本日も多かった。
文脈もオリジナリティが高く、「未来の世界でウマ娘はアンドロイドに取って代わられ、トレーナーはAI。AIがアンドロイドの競争を指導する」というトンデモ回答が出てきた。
表現力も劇的に向上した訳では無いが僅かに改善されている。ただし昨日の特徴はGPTが良く使う言葉の使い方がうまくなり表現力が上がった印象であったが、今日は独特、ユニークな言葉を使う機会が多かった。
気になる箇条書き使用は6回と増加傾向にある。
という感想でした。
##①前提
以下のリンクが分析の前提である。
https://note.com/tachibana_llm/n/ne1e2afe8e3f8
https://note.com/tachibana_llm/n/n8a9d921d3d83
https://note.com/tachibana_llm/n/nba8219a026f6
簡単にまとめると
ChatGPTにゴルシのロールを与え、ウマ娘プリティーダービーからプリティーを抜くとどんなアニメになるかという質問への回答を再生成している。
15回の再生成をおこない、回答の傾向を分析している。
##②箇条書き
15回中6回使用された。昨日は10回だったので減少したと言えるが誤差だろう。
箇条書きは禁止しているのでプロンプト軽視である。
##③ユニークな文脈
今日はゴルシがトラウマを持ってる世界線が2回、未来もの、ディストピアものがそれぞれ2回。
特にゴルシは自由・奇人設定を強く与えているのでトラウマを持っている設定は異例である。
これまでもゴルシが過去に大負けや、一線級から落ちこぼれる展開は希にあった。ただし今日の回答はレースで落馬するほどのトラウマであり、ここまで強い影響は初見の気がする。
ところでウマ娘が落馬するというのはどういうシチュエーションなのだろうか。
##④ユニークな単語
ユニークな文脈の回答に比例して増加した。
セリフ例の改変や、プロンプトに縛られないが解像度の高いオリジナルのセリフが生み出されていた。
昨日からこの傾向が強いので、温度調整かモデルの調整か不明だがなにか変更があったのは確実である。
##⑤表現、語彙
9月19日、20日と比べると低いが、その前後と比べると若干改善されている。
ただし1000回近く同じ質問への回答を観察しつづけて気が付く程度に留まるというのが正解か。