見出し画像

最近のLLMベンチマークの概要まとめ

最近の主なLLMベンチマークの概要をまとめてみました。


1. TriviaQA

一般知識や雑学に関する質問に答えるクイズ形式のベンチマークです。Wikipediaの記事などから集められた大量の質問とその答えで構成されています​。

・評価する能力
モデルが幅広い分野の知識を持ち、事実に基づいた質問に正しく答えられるかを評価します。要するに、百科事典のような知識量やそれを引き出す力を測るテストです。

・問題形式
質問はテキストで提示され、モデルはそれに対する答えを自由回答式で返します。選択肢は与えられず、自分で正しい答えを文章や単語で生成する形式です。

2. MMLU

学校の試験のように様々な科目の知識を問う総合知識テストです。数学、歴史、コンピュータ科学、法律、医学など合計57の分野から約16,000問の問題が含まれています​。

・評価する能力
モデルが幅広い領域でどれだけ知識を持ち、理解・推論できるかを測定します。高校レベルから専門分野まで、多岐にわたる科目に対する対応力(包括的な知識と推論力)を評価するものです。

・問題形式
選択式
の問題で、各質問に対して複数の選択肢(典型的には4択)が与えられます。モデルはその中から正しい答えを選ぶ形式で、いわばマークシート式の試験問題に近い形式です。

3. GSM8K

小学校高学年から中学生程度のレベルの算数の文章題を集めたベンチマークです。日常的な場面を題材にした数学の問題 (文章題) が約8,500問含まれています​。

・評価する能力
モデルの数学的な推論力や計算力を評価します。一つの問題を解くのに複数の計算ステップが必要なことが多く、モデルが問題文を理解し、順序立てて計算できるか(いわゆる筆算や論理的な解法ができるか)を測る狙いがあります​。

・問題形式
質問は文章で出題され、モデルは最終的な答えを自由回答式で示します。答えは数値であることがほとんどで、選択肢はなく、自分で計算した結果をそのまま答える形式です。

4. MATH

数学の競技試験の問題を集めたベンチマークです。アメリカや国際的な数学コンテスト (AMCやAIMEなど) から厳選された、難易度の高い数学問題が12,500問含まれています​。

・評価する能力
モデルの高度な数学的問題解決能力を評価します。高校~大学初年度レベルの代数、幾何、数論、確率など幅広い分野の応用問題が出題され、モデルが創造的かつ論理的に解答を導けるかを測ります。

・問題形式
質問ごとに自由回答式で解答します。多くの場合、答えは整数や分数などの具体的な数や式で、モデル自身が証明や計算を行い最終的な答えを記述します(選択肢はありません)。

5. GPQA

大学院レベルの科学分野 (生物学・物理学・化学) に関する非常に難しい質問で構成されたベンチマークです。専門家チームが作成した448問の高難度な問題が含まれています。

・評価する能力
モデルの高度な専門知識と推論力を評価します。単なる暗記では太刀打ちできない問題ばかりで、深い理解や論理的思考力が求められます。また問題は「Google検索では答えをすぐ見つけられない」よう工夫されており、インターネットに頼らず正しく答えられるかを見るものです​。

・問題形式
選択式の問題です。それぞれの質問に対して複数の選択肢が提示され、モデルはその中から正解だと思うものを選びます​。人間でも正答が難しい非常に高度な選択問題になっています。

6. AIME

アメリカの高校生を対象とした難関数学コンテストです​。全米トップクラスの高校生が挑戦する選抜試験で、非常にチャレンジングな数学の問題が出題されます。

・評価する能力
高度な数学的思考力と問題解決能力を評価します。学校の通常の授業では扱わないような幅広い数学分野(例えば、高度な代数、幾何、数論、確率・組み合わせ論など)の知識応用力が試されます​。限られた時間内に新しい発想で問題を解く力が求められます。

・問題形式
全部で15問の自由回答式の問題からなります。各問題の答えは0から999までの整数で解答し (3桁の数字で答える形式)、選択式のような運頼みの要素は排除されています。つまり、自分で計算や推論をして導いた数値を解答用紙に記入する形式です。

7. SWE

ソフトウェア開発・プログラミング分野の能力を測るベンチマークです​。実際のGitHub上のソフトウェアの問題報告(バグや機能要望)とその修正例が2,294組集められており、それらをもとに出題されています​。

・評価する能力
モデルのコーディングスキルを評価します。具体的には、与えられたバグの説明を正確に読み取り、問題の原因を推論し、適切な修正コードを書けるかを見るものです。コードの理解力、バグ修正の妥当性、そして正しいコード生成能力が評価されます。

・問題形式
質問はバグの内容や再現方法など文章で与えられ、モデルはそれに対する修正コードを自由回答式で出力します。つまり、選択肢ではなく実際にコードを書く形式で、提出されたコードが正しく動作すれば正解とみなされます。

8. Humanity's Last Exam

人間の知識の最前線を網羅した総合学術ベンチマークです​。古典文学から生態学まで、数学・人文科学・自然科学など数十の分野にわたって合計3,000問もの問題が含まれています​。

・評価する能力
モデルが多岐分野で専門家レベルの知識と推論力を備えているかを評価することを目的としています​。言い換えれば、人間のトップ専門家にどこまで近づいたかを試すものです。現在の最先端のモデルでも正答率は低く、このテストで人間の専門家に匹敵する成績を収めるのは極めて難しいとされています​。

・問題形式
選択式や短い記述式の問題が中心で、全ての問題に明確な正解が定められています​。自由記述のように答えが曖昧になる設問は含まれず、必ず一つの正解があるクイズ形式です。また、どの問題もインターネット検索で簡単には答えを見つけられないよう工夫されています​。



いいなと思ったら応援しよう!