Claude 3 Opusのベンチマーク結果の小数点以下

2024年3月20日 08:58

はじめに

AlphabetとAmazonが出資するAnthoropic がClaude 3を発表しました。Haiku, Sonnet, Opusの3つのサイズからなり、最上位のOpusはGPT-4, Gemini Ultra 1.0をしのぐという発表です。

GPT-4, Gemini Ultra, Claude 3 Opusの競争

GPT-4が出てきたときには、司法試験も上位10%で合格するという触れ込みでした。現状の大規模言語モデルの最高水準と思えました。2023年11月のことです。以下のようにGPT-4をしのぐモデルが発表されました。

Gemini 1.0 Ultra 2023年12月
Claude 3 Opus 2024年3月

ほとんど人間に匹敵する認知能力を持つモデルが次々と出てくるのは驚きです。大規模データの大規模計算の威力は絶大です。

Claude 3 Opusのベンチマーク

Claude 3 Opus

Anthoropicがホームページで明らかにしているGPT-4, Gemini 1.0 Ultraをしのぐというベンチマーク結果は以下のとおりです。

Claude 3 ベンチマーク評価 (出典: Anthoropic ホームページ)

小数点以下の競争

すべてのベンチマークでGPT-4を上回っています。
しかし、よく見ると3つでは差は0.1-0.4%です。
これがひとつでもひっくりかえっていればその差はわずかでも印象はずいぶん違ったはずです。
そもそもこの生成AIのベンチマークは小数点以下にも意味があるものなのかも不思議です。

それぞれのベンチマークの問題数は以下のとおりです：

MMLU　（Massive Multitask Language Understanding）　ゼロショットかフューショットで知識を計測 57 個のタスク、計 17,844 問
GPQA　大学院レベルの物理学・化学・生物学の知識と推論 448問
GSM8K 小学生レベル算数 8500題
MATH 計算・数学能力を計る 12,500 問
MGSM 多言語数学問題（GMS8Kの多言語版　10言語)
HumanEval Pythonコーディングテスト　164問
DROP 読解能力 96,567問
BIG-Bench-Hard 推論　23の困難なタスク 250問
ARC-Challenge　推論能力　7787件の科学分野の質問
HellaSwag 物語の続きを予測　10K(10000問)

これを見る限り 1/1000まで比較するのが悪いとも言えないようです。

Google Gemini Ultraの例

Google Gemini UltraのMMLUのスコアは 90.0でGPT-4は86.5です。これは同じ条件で比べていないなどと批判の対象にもなった実験です。それはさておき、このとき、人間がMMLUスコア 89.8でそれを上回るということも言われていました。このスコアの0.2 にそれほど意味があるのでしょうか。疑問です。Googleがこれで人間の専門家を上回ると言ってしまうのはどうでしょうか。現場の研究者が言ったとは思えないので、広報サイドがとびついたメッセージなのかなと思っています。
Claude 3がすべてのベンチマークでGPT-4に勝るというプレスリリースが出た時、動画の中で Gemini Ultraも実際に使ったらベンチマークほどGPT-4を打ち負かしていなかったのでベンチマークは信用できない、とか言われていました。

個人的な疑問

10000問以上あれば、1/1000まで比較するのが悪いとはいえません。しかし、それが1/1000の精度を持つかと言うのは別問題です。
さらっと調べただけではこれらのベンチマークがどれくらいの精度を持っているかは判断できませんでした。
2-3%の誤差はあるのではないかと想定していましたが、決定的なことはわかりませんでした。

おわりに

生成AIのベンチマークの精度は面白いトピックなので、さらに何かわかったらまとめたいと思います。

参考文献

Introducing the next generation of Claude https://www.anthropic.com/news/claude-3-family 2024年

AI2 Reasoning Challenge (ARC) - 質問応答のための新たなデータセット　https://qiita.com/tekunikaruza_jp/items/d2ec3621afc9ba3d225b　2018年
HellaSwag: Can a Machine Really Finish Your Sentence? https://arxiv.org/abs/1905.07830
DROP: A Reading Comprehension Benchmark
Requiring Discrete Reasoning Over Paragraphs https://arxiv.org/abs/1903.00161
The Abstraction and Reasoning Challenge (ARC) 　https://pgpbpadilla.github.io/chollet-arc-challenge
GPQA https://github.com/idavidrein/gpqa/
HumanEval https://github.com/openai/human-eval
Measuring Massive Multitask Language Understanding https://arxiv.org/abs/2009.03300
Training Verifiers to Solve Math Word Problems https://arxiv.org/abs/2110.14168 (GSM8K)
Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them https://arxiv.org/abs/2210.09261
グーグル、マルチモーダル生成AI「Gemini」を発表、「人間の専門家を上回る」とアピール　https://it.impress.co.jp/articles/-/25698
New Claude 3 “Beats GPT-4 On EVERY Benchmark” (Full Breakdown + Testing) https://www.youtube.com/watch?v=sX8Ri3w2MeM 26m09s 2024年
【Gemini Ultra 1.0 VS GPT-4】史上最強LLMの性能を比較したら普通にGPT-4の方がすごかった件 https://weel.co.jp/media/gemini-advanced-gpt-4 2024年