MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models
https://arxiv.org/abs/2309.12284
本研究の「問い」は、数学的な複雑な推論を求められる問題解決において、大規模言語モデル(LLMs)がまだ満足のいく結果を出せていない点です。LLMsが示す優れた問題解決能力にもかかわらず、特に数学の問題解決においては、複雑な推論手続きを要するため、既存の開発されたLLMs(例:LLaMA-2)が満足できる結果を残せていないという課題があります。
本研究の目的は、数学的推論に特化した微調整された言語モデル、MetaMathを提案することです。創造性と独自性は、新しいデータセット(MetaMathQA)の作成とそれを用いた既存のLLMs(LLaMA-2)の微調整に表れています。このデータセットは、数学の問題から複数の視点で問題を再構築することで作られています。
数学の問題解決が特に挑戦的であること、そして公開されているLLMs(例:LLaMA-2)がこれに対して十分なスキルを持っていない、という問題認識が本研究の位置づけの基礎となっています。また、数学的問題解決能力を改善するための2つの主な研究ライン、つまりプロンプトベースの手法と微調整ベースの手法が存在します。本研究は、後者の手法を改善するための新しい方法を提案しています。
本研究では、新しいデータセットMetaMathQAの作成と、それに基づいてLLMs(LLaMA-2)を微調整する方法を提案しました。この新しい手法によってMetaMathモデルを作成し、そのモデルが数学的な問題解決において優れたパフォーマンスを発揮することを示しました。
本研究では、二つの主要な評価基準(GSM8KとMATH)についてMetaMathのパフォーマンスを評価することで有効性を検証しました。本研究による新しいモデル、MetaMathは既存の開源LLMsを大幅に凌駕し、特に数学的問題解決においては、GSM8Kで66.4%、MATHで19.4%の精度を達成しました。これにより、既存の最良の開源LLMsに対する大幅な改善を示しました。