Claude 3 Opus 楽しいですね。
GPT-4が出てから1年、個人的な趣味としてGPT-4にたまに自分用に創作をしてもらっていたのですが、過去にGPT-4とやってきたタスクでClaude 3 OpusとGPT-4両方に出力させ比較してみました。
30のタスクで人間(私)、GPT-4、Claudeの3者で結果を比較評価しました。多数決した結果はGPT-4の勝利でしたが、体感的にはほぼ互角、Claude 3 Opusはたまに絶対にGPT-4には出せなそうな出力をするのが面白い、という感想です。
今回使ったprompt、モデルの出力、評価結果、モデルによる評価判断の出力はすべてこのGoogleスプレッドシートで共有してますので、興味ある方は眺めてみてください。
数が多いので、もし見る方はこの辺りを見るのがおすすめです。
No.1「恋愛ゲームのバッドエンド会話」
No.12「ユニークなファンタジー作品のコンセプト」
No.14「No.1で敗北した主人公が逆転するプロットのアイデア」
No. 24「毒竜のチャットボットに脱毛の質問をする」
評価方法
GPT-4とClaude 3の出力を同時に見せて、どちらが優れているかを判断します。
判断者は人間(私)、GPT-4、Claude 3にそれぞれ判断させ、多数決で結果を決めることにします。
評価用のpromptは以下です。判定基準はタスクによって異なるので明示的には指定せずに、まずどのようなプロセスで判定するかを出力させた後に、判定結果を出力させる形にしました。
2つの出力を見せる時、順番によるバイアスを軽減するために、GPT-4にはClaude 3の出力をモデルAとして見せて、Claude 3にはGPT-4の出力をモデルAとして見せることにしました。
人間(私)による評価では、私はどちらの出力かを知りながら評価しているので、バイアスがかかっている可能性があります。
また、人間による評価のみ、迷って決められないときは引き分けとして良いことにしています。
今回の評価ではGPT-4はChatGPTを利用し、Claude 3 OpusはPoeから利用しました(手動)
タスクの種類
タスクの種類は、私がよく使うユースケースから選びました。
ゲームの会話シーン作成、プロフィール作成、プロットの作成、小説のシーン執筆、ブレスト、キャラクターチャットボットの6つで、合計30のプロンプトを作成しました。
今回使用したプロンプトの長さは200~1000文字が多く、一部2000文字を超えるものも用意しています。
短いもののうち4つは画像を入力するものです。
プロンプトの一例(300文字程度)
評価結果
全体の評価結果
まずは、全体的な評価結果です。
多数決の結果はgpt4が17勝、claude 3 opusが10勝でgpt4が差をつけて勝利しました。
しかし、人間の評価ではgpt4が10勝、claudeが11勝、引き分けが9でほぼ互角という結果になり、人間の評価とモデルの評価はまあまあ乖離しています。
特にGPT-4評価ではGPT-4が23勝とかなり偏っています。
出力の長さを比較すると、GPT-4のほうが長い出力を返しがちで出力の詳細度が高いため、この点が評価に影響しているかもしれません。
散布図を見ると、ほとんどのケースでGPT-4が長い出力を返しています。
(赤線より上にあると、GPT-4のほうが長い)
タスク種類による違い
タスクの種類ごとに集計するとこんな結果になります。
評価(人間)列が体感値ですが、このタスクはGPT-4が明確に良い、とかClaudeが良いというような差は感じませんでした。
プロット作成でユニークなアイデアが欲しいときはClaudeのほうが良いかもぐらいの感覚です。
人間評価との違い
モデル評価ではどちらのモデルもGPT-4を好んでいても、人間評価では大差でClaudeが良いと感じることもありました。
今回は評価観点の決定をLLMに任せたので、そのことによる評価観点のズレがありそうです。
No.17のキャラクターがBL妄想をするシーンを書かせるプロンプトで顕著なのですが、私はどっちが面白いかな~ぐらいの気持ちでClaudeを選んだ一方で、Claude自身の評価を見ると以下のように真面目な観点で評価をしてGPT-4を評価しているようです。
長いのですが、最後にNo.17のプロンプトとそれぞれの出力を載せておきます。一応、全件の入出力はここで公開しています。
No.17のプロンプト
No.17の出力(Claude 3 Opus)
No.17の出力(GPT-4)