GPT-4も苦戦!? 最新LLMベンチマーク「MMLU-Pro」についてまとめ
はじめに
近年、自然言語処理(NLP)の分野での大規模言語モデル(LLM)の進展は目覚ましく、GPT-4やGemini、Claudeなどの先進的なモデルが登場しています。しかし、これらのモデルの評価には、新たな課題と限界が浮き彫りになっています。
最近発表された「MMLU-Pro」は、従来のMMLU(Massive Multitask Language Understanding)ベンチマークを超える、新たな評価基準を提供しています。本コラムでは、MMLU-Proの登場によって明らかになったことを掘り下げていきます。
MMLU-Proの概要と特徴
より厳格な評価基準
MMLU-Proは、既存のMMLUベンチマークを基に、さらに挑戦的で推論重視の質問を追加し、選択肢の数を4つから10個に増やしています。これにより、モデルが単純な知識に頼ることなく(従来の方法はテスト内容を学習している、いわゆるカンニング的な要素もあった)、深い推論能力を試されるよう設計されています。
難易度の向上
実験結果によると、MMLU-Proはモデルの精度を大幅に低下させることが確認されています。例えば、GPT-4-TurboはMMLUで86.5%の精度を誇りましたが、MMLU-Proでは63.7%に低下しています。これは、MMLU-Proがモデルの真の能力をより厳密に評価できることを示しています。
チェイン・オブ・ソート(CoT)によるパフォーマンス向上
MMLU-Proでは、CoT推論を利用することでモデルのパフォーマンスが向上することがわかりました。具体的には、GPT-4oモデルはMMLU-Proで19%の性能向上を示しています。これは、MMLU-Proがより複雑な推論問題を含むため、モデルが深い思考を必要とすることを反映しています。
主な発見とその影響
モデル間の差別化
MMLU-Proは、異なるモデルの能力をより明確に区別することができます。例えば、GPT-4oとGPT-4-Turboの間の精度差は、MMLUでは1%でしたが、MMLU-Proでは9%に拡大しています。これにより、MMLU-Proはモデルの微細な性能差を識別する上でより適していることが示されています。
エラーパターンの分析
GPT-4oのエラー分析では、39%が推論過程の欠陥、35%が特定の専門知識の欠如、12%が計算エラーによるものであることが明らかになりました。
具体的には、以下のようなエラーが見られました。
知識不足の例: 車の分割払いの金利計算問題で、頭金を差し引いた金額を元金として計算する必要があるにも関わらず、GPT-4oは頭金を考慮せずに金利を計算してしまいました。
知識不足の例: 空気中と水中でのレンズの焦点距離の変化を求める問題で、GPT-4oは屈折率の比を用いるべきところを、単純な差を用いて計算してしまいました。これは、レンズの焦点距離が周囲の媒質によってどのように変化するのかについての知識が不足していたためと考えられます。
推論ミス の例: 水を入れたシリンダーにピストンが取り付けられた状態で、水を沸騰させるために必要な最小の力を求める問題で、GPT-4oはピストンの内側と外側の圧力差を計算する際に、加算するべきところを減算してしまいました。
計算ミス の例: 化合物の分子量を求める問題で、GPT-4oは分子式は正しく理解できたものの、計算ミスによって誤った分子量を算出してしまいました。
これらのエラーは、GPT-4oが複雑な問題を解く際に、必要な知識を適切に適用したり、論理的なステップを正しく踏襲したりすることが苦手であることを示唆しています。
ロバスト性の向上
MMLU-Proは、24種類のプロンプトスタイルに対するモデルのスコア変動を分析し、その感度がMMLUの4-5%からMMLU-Proでは2%に減少することを確認しました。これにより、MMLU-Proは一貫性と信頼性の高い評価を提供できることがわかります。
結論
MMLU-Proの登場は、LLMの評価における新たな基準を打ち立てました。この新たなベンチマークは、従来のMMLUが抱えていた限界を克服し、モデルの推論能力をより厳密に評価できることを示しています。
例えば、GPT-4oやClaude-3-Opus、Gemini-1.5-Proといった最新のモデルも、この新しいベンチマークによってその限界が試されています。今後、MMLU-ProはAI技術の進展を追跡し、LLMの能力を高めるための重要なツールとなるでしょう。