
生成AIベンチマークの墓場(2024年)
今年も多くの生成AIベンチマークが好成績によって顧みられなくなりました。2024年の備忘録です。
顧みられなくなったベンチマーク
今年90%かあるいはそれに近いSoTAを出したベンチマークはこちら:
HumanEval 92.0% (Claude 3.5 Sonnet) プログラミング問題
AIME2024 96.9%(o3) 数学問題のベンチマーク
GPQA Diamond 87.7% (o3) 生物学、物理学、化学問題のベンチマーク
ARC-AGI 87.5% (o3 high) 人間にとっては容易でAIにとっては難しいベンチマーク
MMLU 90.4% (Claude3.5 Sonnet) 57のタスク(初等数学、コンピュータサイエンス、法学など)をカバーし、知識や問題解決能力を見るベンチマーク
MGSM 91.6% (Claude3.5 Sonnet) 多言語による小学校算数問題
GSM8K 96.4% ( Claude3.5 Sonnet) 小学校算数問題
MATH 89.7% (Gemini 2.0 Flash) 難解な数学問題
Natural2Code 92.9% (Gemini 2.0 Flash) プログラミング問題
ARC-AGIは計算資源制限のなかではまだ75.7です。
正確には区別すべきですが、few-shotのnとか@kのkとかは省略しています。
まだ元気なベンチマーク
FrontierMath 25.2% (o3) 難解な数学の問題
SWE-bench verified 71.7% (o3) 実世界のバグを修正する問題
SWE-benchも1年前は2%(ただしその時はverifiedではなくfull)だったのでだいぶ危なくなってきました。
AGI
定義はいろいろありますが、AGI (Artificial General Intelligence: 汎用人工知能)をほとんどの経済的な意味があるタスクで人間に匹敵する知能とします。
Sam AltmanはAGIへの道筋は見えたと言っています([altman])。
個人的には03で2024年はAGIが達成された年となったのではないかと思います。
生成AIに聞いた結果はAGIの達成率は次のとおりです:
o1-mini: 10% (Web検索なし:知識は2023年10月まで)
GPT-4o: 30-40% (Web検索あり)
Gemini 1.5 Flash: 30-35%(Web検索あり)
GPT-4oとGemini 1.5 Flashは o3の結果を検索して答えてくれと指示した結果です。
まだAGIには少しあるようです。
ASI(Artificial Super-Intelligence: 超人工知能)を人間の100万倍賢い人工知能とします。Ray Kurzweilは人工知能が人間に追いつくとすれば、そのあと、引き離すのは一瞬だと言っていました。どうなるでしょうか。
むすび
ARC-Prizeはさらに難しい問題 v2を作るそうです。MMLUにはさらに難しい
MMLU-Proがあります。
数学の専門家でも何日もかかるのがFrontierMathです。o3は解くのに16時間かかったという話です。つい最近まで小学校の算数問題で生成AIの能力を測っていたのが嘘のようです。
o1が発表されてからo3までがたった3ヶ月でした。2025年はどうなるのでしょうか。
参考文献
[altman] Sam Altman: Reflections https://blog.samaltman.com/reflections Reflections 2025年
[anthropic] Claude 3.5 Sonnet https://www.anthropic.com/news/claude-3-5-sonnet 2024年6月
[google] Introducing Gemini 2.0: our new AI model for the agentic era
https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/ Google 2024年[openai] OpenAI o3 and o3-mini—12 Days of OpenAI: Day 12 https://www.youtube.com/watch?v=SKBG1sqdyIU 2024年
[shibu_phys] 有名LLM発表で使われている評価ベンチマークの紹介 https://qiita.com/shibu_phys/items/4497a2356f3c70b1053e 2024年