ベンチマークの枯渇

2025年2月26日 18:03

ベンチマークの枯渇問題は面白い．これがAGIに近づいていく感覚だと思う．

1. 概要（Abstract）

本論文では、2021年以降に登場したAIベンチマークの動向を俯瞰し、従来の評価指標がいかに急速に「枯渇」＝飽和（人間レベルを突破あるいは限界点に到達）してきたかを整理する。具体的には、言語理解系MMLU、複合タスク系BIG-bench、高度数学推論用のFrontierMath、および汎用的専門知識評価を狙うHumanity’s Last Exam (HLE) を中心に取り上げ、それぞれの提案時からのスコア推移を考察した。結果として、以下のような傾向が確認される。

MMLUやBIG-benchなどは提案から1～2年未満で大規模言語モデルが人間レベルに迫る・超える事例が見られ、「短命」なベンチマークとなった。
FrontierMathやHLEといった最新・高難度ベンチマークは現行モデルが著しく低スコアに留まる一方、少数の先端モデルが短期間で0%→25%～26%へ急伸しており、ベンチマーク飽和へ向かう速度が加速している。
ベンチマークの寿命は大幅に縮まり、AGI到達を評価するうえで、より動的かつ広範な評価指標の必要性が高まっている。

これらの知見から、AI研究コミュニティは「次世代評価手法」を模索しつつ、AIモデルとベンチマークが相互に競合し合うプロセスが今後さらに加速していくと考えられる。

2. はじめに（Introduction）

AI分野において、モデル性能を定量的に比較するためのベンチマークは不可欠である。従来は自然言語処理（NLP）、画像認識、推論タスクなど個別領域ごとに評価セットが整備され、それらを制覇することが研究の大きなモチベーションとなってきた[1]。しかし、大規模言語モデル（LLM）の急速な進化に伴い、多くのベンチマークが短期間で高スコア（時には人間並み）を達成される現象、いわゆる「ベンチマークの枯渇」が顕在化しつつある[2][3]。本論文では特に2021年以降に登場した大型ベンチマークに着目し、その飽和速度や原因、そしてAGI（汎用人工知能）へのインパクトを総合的に議論する。

MMLU (Massive Multitask Language Understanding) は、高校〜大学レベルの学術問題を含む言語理解ベンチマークとして2021年に登場し[4]、言語モデルの知識と推論力を一括評価可能な画期的指標とされた。しかし数年後にはスコアが人間レベルをほぼ突破するに至り[5][6]、その「寿命の短さ」が議論を呼んだ。さらに多種多様なタスクを集約したBIG-bench[7]や、より困難な数学推論を狙ったFrontierMath[8]、そして最新の総合試験Humanity’s Last Exam (HLE)[9]まで、立て続けにベンチマークが提案され、また瞬く間に克服される流れが起きている。

本論文の狙いは、この「ベンチマークの枯渇」の現象を事例ごとに詳細に検証し、そこから得られる教訓を示すことである。具体的には、(1) 主要ベンチマークの提案後の性能変遷を整理し、(2) 各ベンチマークで人間レベルに到達した（あるいは遠い）時期と速度を比較し、(3) 現行の評価指標の問題点や今後求められる方向性を論じる。

3. 関連研究（Related Work）

3.1 ベンチマーク飽和と進化

従来の画像認識では、ImageNet[10]が2012年のディープラーニング革命を牽引し、短期間で人間同等の認識精度が達成された。NLP分野ではSQuAD[11]やGLUE[12]が同様の役割を果たし、すぐに「SuperGLUE」へと難易度が引き上げられた[13]。こうしたベンチマークの「飽和→新ベンチマーク提案→再飽和」という連鎖はAI研究の常だが、LLM時代に入ってそのサイクルが加速している[14]。

3.2 大規模言語モデルとEmergent Abilities

GPT-3[15]やPaLM[16]、Chinchilla[17]、GPT-4[5]などのLLMが登場する中で、モデルパラメータ数やトレーニングコーパスが拡大すると突如としてタスク性能が激増する「Emergent Abilities」現象が報告されている[18]。一見解けなかった推論問題が、わずかにモデルサイズを増やすだけで急に高スコアを達成する事例が相次ぎ、この予測困難な飛躍がベンチマーク飽和を加速させている要因と指摘される[19][20]。

ここから先は

8,586字 / 1画像

落合陽一が「今」考えていることや「今」見ているものを生の言葉と写真で伝えていくことを第一に考えています．「書籍や他のメディアで伝えきれないものを届けたい」という思いを持って落合陽一が一人で頑張って撮って書いています．マガジン開始から４年以上経ち，購読すると読める過去記事も１２００本を越え（１記事あたり３円以下とお得です），マガジンの内容も充実してきました．

落合陽一の見ている風景と考えていること

¥3,980 / 月

落合陽一が日々見る景色と気になったトピックを写真付きの散文調で書きます．落合陽一が見てる景色や考えてることがわかるエッセイ系写真集（平均で…

ログイン

いつも応援してくださる皆様に落合陽一は支えられています．本当にありがとうございます．