【論文瞬読】MCTSで広がる可能性：Marco-o1が示す大規模言語モデルの新たな推論能力

2024年12月1日 13:54

こんにちは！株式会社AI Nestです。大規模言語モデル（LLM）の進化が続く中、特に注目を集めているのが「推論能力」の向上です。今回は、OpenAIのo1モデルに触発された新しい研究、Marco-o1をご紹介します。この研究は、従来の推論モデルの限界を超え、より柔軟で創造的な問題解決を目指しています。

タイトル：Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
URL：https://arxiv.org/abs/2411.14405
所属：MarcoPolo Team, Alibaba International Digital Commerce
著者：Yu Zhao, Huifeng Yin, Bo Zeng, 他

図2に示すように、Marco-o1は従来のLLMに、モンテカルロ木探索（MCTS）と独自の推論戦略を組み合わせた革新的なシステムです。特筆すべきは、数学や物理学のような「正解のある問題」だけでなく、オープンエンドな問題解決にも焦点を当てている点です。

Marco-o1の技術的特徴

図3は、Marco-o1がどのように複数の推論パスを探索し、最適な解を見つけ出すかを示しています。MCTSを用いることで、従来の単一パスでの推論を超えて、より広い解空間を効率的に探索できることが分かります。

ベースモデルと訓練データ

Marco-o1は、Qwen2-7B-Instructをベースモデルとして採用しています。訓練データは以下の3種類を組み合わせています：

Open-O1 CoT Dataset（フィルター済み）：45,125サンプル
Marco-o1 CoT Dataset（合成）：10,000サンプル
Marco Instruction Dataset：5,141サンプル

これらのデータセットを組み合わせることで、幅広い推論タスクに対応できる能力を獲得しています。

MCTSによる解空間の拡張

Marco-o1の最大の特徴は、モンテカルロ木探索（MCTS）を活用して解空間を効果的に探索する点です。従来のLLMが1つの推論パスのみを生成するのに対し、MCTSを用いることで複数の推論パスを探索し、最適な解を見つけ出すことができます。

具体的な実装では：

各ノードが推論の状態を表現
モデルの出力が可能なアクションとして扱われる
信頼度スコアに基づいて最適な推論パスを選択
ロールアウトによる解の評価

特に興味深いのは、トークンごとの信頼度スコアの計算方法です：

信頼度スコア = exp(現在のトークンの確率) / Σ(上位5候補の確率の合計)

この計算により、各推論ステップの確実性を定量的に評価することができます。

推論行動戦略

Marco-o1は、推論の粒度を柔軟に調整できる3つの戦略を実装しています：

ステップレベルでの推論
- 完全な推論ステップを1つのアクションとして扱う
- 効率的な探索が可能だが、細かい推論パスを見逃す可能性がある
64トークン単位のミニステップ
- より細かい粒度での探索が可能
- 計算コストと探索精度のバランスが取れている
32トークン単位のミニステップ
- 最も細かい粒度での探索
- 複雑な問題での高い精度を実現

反射メカニズム

Marco-o1の特筆すべき機能の1つが、反射（リフレクション）メカニズムです。各推論プロセスの最後に「Wait! Maybe I made some mistakes! I need to rethink from scratch.」という促しを加えることで、モデルに自己批判的な思考を促します。

この機能により：

初期の推論結果の再評価が可能に
約半数の困難な問題で正答率が向上
より信頼性の高い結論を導き出せる

実験結果と評価

MGSMデータセットでの性能

実験結果は非常に印象的でした：

英語タスク
- ベースライン（Qwen2-7B-Instruct）：84.00%
- Marco-o1-MCTS（step）：90.40%
- 改善率：+6.40%
中国語タスク
- ベースライン（Qwen2-7B-Instruct）：76.80%
- Marco-o1-MCTS（32トークン）：82.40%
- 改善率：+5.60%

Test@N評価での性能

複数回の試行を許可した場合の性能評価も実施されました：

Test@1：1回の試行での正答率
Test@8：8回の試行で少なくとも1回正解する確率
Test@32：32回の試行で少なくとも1回正解する確率

英語タスクでは、Test@32で99.60%という驚異的な正答率を達成しています。

翻訳タスクでの応用

Marco-o1は、特に口語表現や俗語の翻訳で優れた性能を示しています。以下は具体例です：

中国語の口語表現「この靴は踏んだ糞のような感覚です」を「この靴は履き心地が良いです」と適切に翻訳
韓国風ファッションの説明文における微妙なニュアンスの翻訳
商品レビューにおける感情表現の的確な翻訳

これらの結果は、モデルが文脈や文化的な背景を理解した上で、適切な翻訳を生成できることを示しています。

興味深い発見：Strawberry問題

研究チームは、興味深い現象を報告しています。「strawberry」という単語に含まれる「r」の数を数える問題で、Marco-o1は最後の「y」について明示的に言及せずに正解を導き出しました。

この現象は：

人間のような直感的な問題解決能力の萌芽を示唆
明白な情報の省略が可能な高度な推論能力の証拠
MCTSによる多様な推論パスの探索の効果を実証

まとめと今後の展望

Marco-o1は、以下の点で大きな可能性を示しています：

MCTSによる効果的な解空間の探索
- 複数の推論パスの同時探索
- 確信度に基づく最適解の選択
柔軟な推論戦略の実装
- 問題に応じた探索粒度の調整
- 反射メカニズムによる自己改善
オープンエンドな問題への対応能力
- 翻訳における文化的ニュアンスの理解
- 複雑な推論タスクでの高い性能

今後の発展方向として：

報酬モデル（RM）の改善
プロセス報酬モデリング（PRM）の導入
強化学習との統合
より効率的な探索戦略の開発

が挙げられています。

本研究は、大規模言語モデルの推論能力向上に新しい方向性を示す重要な一歩と言えるでしょう。特に、MCTSの導入と反射メカニズムの組み合わせは、今後のAI研究に大きな影響を与えると考えられます。

これらの進展は、より柔軟で創造的な問題解決が可能なAIシステムの実現に向けた重要な一歩となるでしょう。