見出し画像

Claude 3 Opusのベンチマーク結果の小数点以下


はじめに

AlphabetとAmazonが出資するAnthoropic がClaude 3を発表しました。Haiku, Sonnet, Opusの3つのサイズからなり、最上位のOpusはGPT-4, Gemini Ultra 1.0をしのぐという発表です。

GPT-4, Gemini Ultra, Claude 3 Opusの競争

GPT-4が出てきたときには、司法試験も上位10%で合格するという触れ込みでした。現状の大規模言語モデルの最高水準と思えました。2023年11月のことです。以下のようにGPT-4をしのぐモデルが発表されました。

  • Gemini 1.0 Ultra 2023年12月

  • Claude 3 Opus 2024年3月

ほとんど人間に匹敵する認知能力を持つモデルが次々と出てくるのは驚きです。大規模データの大規模計算の威力は絶大です。

Claude 3 Opusのベンチマーク

Claude 3 Opus

Anthoropicがホームページで明らかにしているGPT-4, Gemini 1.0 Ultraをしのぐというベンチマーク結果は以下のとおりです。

Claude 3 ベンチマーク評価 (出典: Anthoropic ホームページ)

小数点以下の競争

すべてのベンチマークでGPT-4を上回っています。
しかし、よく見ると3つでは差は0.1-0.4%です。
これがひとつでもひっくりかえっていればその差はわずかでも印象はずいぶん違ったはずです。
そもそもこの生成AIのベンチマークは小数点以下にも意味があるものなのかも不思議です。

それぞれのベンチマークの問題数は以下のとおりです:

  • MMLU (Massive Multitask Language Understanding) ゼロショットかフューショットで知識を計測 57 個のタスク、計 17,844 問

  • GPQA 大学院レベルの物理学・化学・生物学の知識と推論 448問

  • GSM8K 小学生レベル算数 8500題

  • MATH 計算・数学能力を計る 12,500 問

  • MGSM 多言語数学問題(GMS8Kの多言語版 10言語)

  • HumanEval Pythonコーディングテスト 164問

  • DROP 読解能力 96,567問

  • BIG-Bench-Hard 推論 23の困難なタスク 250問

  • ARC-Challenge 推論能力 7787件の科学分野の質問

  • HellaSwag 物語の続きを予測 10K(10000問)

これを見る限り 1/1000まで比較するのが悪いとも言えないようです。

Google Gemini Ultraの例

Google Gemini UltraのMMLUのスコアは 90.0でGPT-4は86.5です。これは同じ条件で比べていないなどと批判の対象にもなった実験です。それはさておき、このとき、人間がMMLUスコア 89.8でそれを上回るということも言われていました。このスコアの0.2 にそれほど意味があるのでしょうか。疑問です。Googleがこれで人間の専門家を上回ると言ってしまうのはどうでしょうか。現場の研究者が言ったとは思えないので、広報サイドがとびついたメッセージなのかなと思っています。
Claude 3がすべてのベンチマークでGPT-4に勝るというプレスリリースが出た時、動画の中で Gemini Ultraも実際に使ったらベンチマークほどGPT-4を打ち負かしていなかったのでベンチマークは信用できない、とか言われていました。

個人的な疑問

10000問以上あれば、1/1000まで比較するのが悪いとはいえません。しかし、それが1/1000の精度を持つかと言うのは別問題です。
さらっと調べただけではこれらのベンチマークがどれくらいの精度を持っているかは判断できませんでした。
2-3%の誤差はあるのではないかと想定していましたが、決定的なことはわかりませんでした。

おわりに

生成AIのベンチマークの精度は面白いトピックなので、さらに何かわかったらまとめたいと思います。

参考文献

  • AI2 Reasoning Challenge (ARC) - 質問応答のための新たなデータセット https://qiita.com/tekunikaruza_jp/items/d2ec3621afc9ba3d225b 2018年

  • HellaSwag: Can a Machine Really Finish Your Sentence? https://arxiv.org/abs/1905.07830

  • DROP: A Reading Comprehension Benchmark

  • Requiring Discrete Reasoning Over Paragraphs https://arxiv.org/abs/1903.00161

  • The Abstraction and Reasoning Challenge (ARC)  https://pgpbpadilla.github.io/chollet-arc-challenge

  • GPQA https://github.com/idavidrein/gpqa/

  • HumanEval https://github.com/openai/human-eval

  • Measuring Massive Multitask Language Understanding  https://arxiv.org/abs/2009.03300

  • Training Verifiers to Solve Math Word Problems https://arxiv.org/abs/2110.14168 (GSM8K)

  • Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them https://arxiv.org/abs/2210.09261

  • グーグル、マルチモーダル生成AI「Gemini」を発表、「人間の専門家を上回る」とアピール https://it.impress.co.jp/articles/-/25698

  • New Claude 3 “Beats GPT-4 On EVERY Benchmark” (Full Breakdown + Testing) https://www.youtube.com/watch?v=sX8Ri3w2MeM 26m09s 2024年

  • 【Gemini Ultra 1.0 VS GPT-4】史上最強LLMの性能を比較したら普通にGPT-4の方がすごかった件 https://weel.co.jp/media/gemini-advanced-gpt-4 2024年


この記事が気に入ったらサポートをしてみませんか?