【論文瞬読】LLMの新たな可能性を開く！繰り返しサンプリングが変える AI の未来

2024年9月19日 23:44

こんにちは！株式会社AI Nestです。今日は、人工知能の世界に革命を起こす可能性を秘めた新しい研究についてお話しします。「大規模言語モデル」（LLM）という言葉を聞いたことがある人も多いでしょう。ChatGPTやGPT-4などが有名ですよね。でも、これらのAIをもっともっと賢くする方法があったとしたら？そう、それが今回紹介する「繰り返しサンプリング」なんです！

タイトル：Large Language Monkeys: Scaling Inference Compute with Repeated Sampling
URL：https://arxiv.org/abs/2407.21787
所属：Department of Computer Science, Stanford University、University of Oxford、Google DeepMind
著者：Bradley Brown, Jordan Juravsky, Ryan Ehrlich, Ronald Clark, Quoc V. Le, Christopher Ré, Azalia Mirhoseini

1. 繰り返しサンプリングって何？

まず、「繰り返しサンプリング」って聞いただけでは何のことかわからないですよね。簡単に言うと、AIに同じ問題を何度も解かせて、その中から最も良い答えを選ぶ方法なんです。

例えば、こんな感じです：

AIに難しい数学の問題を解いてもらう
同じ問題を100回解かせる
100個の回答の中から最も良さそうな答えを選ぶ

「えっ、それだけ？」と思われるかもしれません。でも、この単純な方法が驚くほど効果的なんです！

Figure1, 本論文で採用する繰り返しサンプリングの手順は以下の通りです。 1) 温度が正のLLMからサンプリングを行うことで、与えられた問題に対する多数の候補解を生成します。 2) 生成されたサンプルから最終的な回答を選択するために、ドメイン固有の検証者(例:コードのユニットテスト)を使用します。

2. なぜ繰り返しサンプリングが効果的なの？

ここからが本当に面白いところです。研究チームは、様々なタスクやモデルサイズで実験を行いました。その結果、以下のことが分かったんです：

カバレッジの大幅向上: 正解を含む回答を生成できる割合（カバレッジ）が劇的に上がります。
弱いモデルの底上げ: 小さなモデルでも、繰り返しサンプリングを使えば大きなモデルに匹敵する性能を発揮できることも！
コスト効率の改善: 場合によっては、小さなモデルで多数の試行を行う方が、大きなモデルで1回だけ試行するより効果的かつ安上がりなんです。

Figure2, 5つのタスク全体で、サンプル数を増やすとカバレッジ(少なくとも1つの生成サンプルによって解決された問題の割合)が増加することが分かりました。特に、繰り返しサンプリングを使用することで、SWE-bench Liteではオープンソース手法の解決率を15.9%から56%に増加させることができました。

上の図を見てください。これは5つの異なるタスクでの繰り返しサンプリングの効果を示しています。横軸がサンプル数（試行回数）、縦軸がカバレッジ（正解を含む回答の割合）です。サンプル数が増えるにつれて、どのタスクでもカバレッジが大きく向上しているのが分かりますね。

特に驚いたのは、SWE-bench Liteというソフトウェアエンジニアリングのベンチマークで、繰り返しサンプリングを使うことで正解率が15.9%から56%まで跳ね上がったこと。これは、GPT-4やClaude 3.5などの最新モデルの単一試行での成績を上回っているんです！

3. 数学的な美しさ：スケーリング則の発見

研究者たちは、単に実験結果を示すだけでなく、そこに潜む法則性も発見しました。カバレッジと試行回数の関係が、多くの場合「指数化されたべき乗則」でモデル化できるというんです。

数式で表すとこんな感じ：

カバレッジ ≈ exp(ak^(-b))

（aとbはパラメータ、kは試行回数）

これ、何が凄いかというと、AIの性能向上が予測可能になる可能性があるんです。「試行回数をX倍にすれば、カバレッジがY%上がる」みたいな予測ができるようになるかもしれません。

Figure5, ほとんどのタスクとモデルでは、カバレッジとサンプル数の関係は指数化されたべき乗則でモデル化できます。ただし、MiniF2F-MATHのLlama-3-8B-Instructなどの一部の曲線は、この傾向に厳密に従っていないことに注目してください。

上の図は、実際のデータ（青い点）と、それを指数化されたべき乗則でフィッティングした曲線（オレンジ色の線）を示しています。驚くほど良くフィットしていますね！

4. 繰り返しサンプリングの課題

もちろん、この方法にも課題はあります。最大の問題は、生成された多数の回答の中から正解を見つけ出すことです。

特に、数学の問題のように自動で正解を判定できないタスクでは、この問題が顕著です。研究チームは、GSM8KとMATHという数学データセットで実験を行いました。

Figure7, サンプル数を増やしながら、正しい答えを導くための主流の手法(多数決、報酬モデルの選択、報酬モデルの多数決)と比較したカバレッジ(オラクル検証器によるパフォーマンス)を比較する。ほぼ完全なカバレッジが達成されているものの、すべてのサンプル選択方法において、カバレッジの上限に達することなく、100サンプルに達する前に飽和しています。kの値ごとに、k個のサブセットのメトリクスを100個計算し、サブセット全体の平均と1つの標準偏差をプロットします。

この図を見てください。青い線はカバレッジ（正解を含む回答の割合）を、他の線は実際に正解を選び出せた割合を示しています。10,000回の試行でカバレッジは95%以上に達したものの、多数決や報酬モデルなどの一般的な正解選択方法では、数百回の試行以降は性能が頭打ちになってしまったんです。

つまり、AIは正解を含む回答をほぼ確実に生成できているのに、その正解を見つけ出すのが難しいという状況なんです。まるで、干し草の山の中から針を探すようなものですね。

5. コスト効率性：小さなモデルの逆襲

繰り返しサンプリングの興味深い側面の一つは、コスト効率性です。場合によっては、小さなモデルで多数の試行を行う方が、大きなモデルで1回だけ試行するよりも効果的で、しかも安上がりなんです。

Table1, Moatless Tools エージェントフレームワークを使用して、SWE-bench Lite データセット上のさまざまなモデルの API コスト(米ドル)とパフォーマンスを比較。サンプリング数を増やした場合、オープンソースの DeepSeek-Coder-V2-Instruct モデルは、クローズドソースの最先端モデルと同等の問題解決率を、その3分の1以下の価格で達成できます。

この表を見てください。DeepSeek-Coder-V2-Instructという比較的小さなモデルを5回試行すると、GPT-4oやClaude 3.5 Sonnetという最新の大規模モデルを1回だけ使うよりも高い性能を発揮し、しかもコストは3分の1以下になっています。これは、AIの実用化において非常に重要な発見です。

6. 今後の展望：AIの未来はどう変わる？

この研究は、AIの性能向上に新しい道筋を示しました。今後、以下のような方向での研究が期待されます：

サンプルの多様性向上: より多様な回答を生成する方法の開発
マルチターン相互作用: AIと人間、またはAI同士の対話を通じた問題解決
前の試行からの学習: 過去の試行結果を活用して、より効率的に解を探索する方法

また、この手法は単にAIの性能を上げるだけでなく、AIシステムの設計にも影響を与える可能性があります。例えば、小さなモデルを並列に動かして多数の回答を生成し、それらを統合するような新しいアーキテクチャが生まれるかもしれません。

7. まとめ：AIの新時代の幕開け

繰り返しサンプリングは、AIの能力を引き出す新しい方法として大きな可能性を秘めています。モデルサイズを大きくしたり、データ量を増やしたりするだけでなく、推論時の計算リソースを効果的に活用することで、AIの性能を飛躍的に向上させられる可能性があるんです。

もちろん、正解の選択方法など、まだまだ課題はあります。でも、この研究は間違いなくAI開発の新しい地平を切り開いたと言えるでしょう。

皆さんはどう思いますか？この技術が実用化されたら、どんな応用が可能だと思いますか？コメント欄で皆さんのアイデアをシェアしてくださいね！

それでは、次回のブログでまたお会いしましょう。AIの世界の新しい発見を一緒に探っていきましょう！