DeepRAG: Thinking to Retrieval Step by Step for Large Language Models

2025年2月12日 16:49

URL:
http://arxiv.org/abs/2502.01142v1
Authors:
Xinyan Guan, Jiali Zeng, Fandong Meng, Chunlei Xin, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun, Jie Zhou
Published:
February 03, 2025

Summary
研究目的:
本研究では、大規模言語モデル（LLM）において推論能力を向上させるために、DeepRAGという新しいフレームワークを提案しています。このフレームワークは、問い合わせの段階的な分解と適応的な情報取得を可能にし、推論を補助する情報の取得を戦略的に行うことができるように設計されています。これにより、情報のタイムリネス、正確性、カバレッジに関連する問題を解決し、LLMの推論性能を向上させることを目指しています。
用いたデータ:
研究では、HotpotQA, 2WikiMultihopQA, PopQA（多段階的事実QAのため）、CAG（時事問題に関するQAのため）、WebQuestions（異なる知識ベースに関するQAのため）など、複数のオープンドメインのQAデータセットを使用しています。
手法:
DeepRAGは、Markov Decision Process（MDP）をモデル化し、問い合わせの各ステップで外部知識の取得かパラメトリック推論のどちらに依存するかを動的に決定します。このプロセスは、バイナリツリー検索、模倣学習、校正チェーンの三つの主要なステップで構成されており、推論プロセスを最適化し、情報取得の必要性を正確に判断できるように設計されています。
結果:
実験により、DeepRAGは従来の方法と比較して、回答の正確性を21.99%向上させるとともに、情報取得の効率も改善されることが示されました。これにより、DeepRAGが推論拡張生成の最適化において有効であることが実証されています。

研究目的
研究背景:
大規模言語モデル（LLM）は推論能力において顕著な可能性を示していますが、知識のタイムリネス、正確性、カバレッジに関する問題により、事実に基づかない生成（factual hallucination）が発生しています。この問題を解決するために、情報検索を組み込んだ生成（Retrieval-Augmented Generation, RAG）が提案されていますが、複雑なクエリに対しては効果的なタスク分解や冗長な検索が課題となっています。
DeepRAGの提案:
本研究では、DeepRAGという新しいフレームワークを提案しています。このフレームワークは、マルコフ決定プロセス（MDP）として検索補助推論をモデル化し、戦略的かつ適応的な検索を可能にします。クエリを段階的に分解し、各ステップで外部知識の取得を行うか、LLMのパラメトリックな推論に依存するかを動的に決定します。
実験と結果:
DeepRAGの有効性を検証するために、複数のオープンドメインQAデータセットを使用して実験を行いました。その結果、DeepRAGは検索効率を向上させるとともに、回答の正確性を21.99%改善しました。これにより、検索補助推論の最適化においてDeepRAGの有効性が示されました。
関連研究:
従来の適応型RAGアプローチは、追加の線形ヘッドトレーニングが必要な分類器ベースの方法、閾値依存の不確実性指標に大きく依存する信頼性ベースの方法、およびモデルが自身の知識境界を正確に認識できないために信頼性に欠けるLLMベースの方法に大別されます。DeepRAGはこれらの問題を解決するために、LLMの生成能力を活用して知識境界を探索します。
将来の展望:
DeepRAGは、検索が必要な場合とそうでない場合を効果的に判断し、不要な検索によるノイズの導入や生成品質の低下を防ぎながら、LLMの推論能力を強化します。今後の研究では、さらに多様なデータセットや実世界のシナリオにおいて、DeepRAGの適用性と拡張性を検証することが期待されます。

用いたデータ
HotpotQA:
このデータセットは、複数の文書から情報を集め、それを組み合わせて質問に答える必要がある多段階的な質問応答（QA）タスクに焦点を当てています。このようなタスクは、モデルが複数の情報源から関連情報を抽出し、統合する能力を評価するのに適しています。
2WikiMultihopQA:
2WikiMultihopQAもまた、複数のWikipediaの記事を参照して質問に答えることを要求される多段階的QAタスクです。このデータセットは、モデルがテキスト間の関連性を理解し、複数のステップを通じて正しい答えに到達する能力を評価します。
PopQA:
このデータセットは、ポピュラーカルチャーに関連する質問に答えることに特化しています。質問は通常、特定の映画、音楽、テレビ番組などに関連しており、モデルが特定のドメインの知識をどの程度理解しているかを評価するのに役立ちます。
CAG:
Current Affairs Questions（CAG）は、最新のニュースイベントや時事問題に関する質問に答えることを目的としています。このデータセットは、モデルが最新の情報を取り入れ、時事的なコンテキストを理解する能力を試すために使用されます。
WebQuestions:
このデータセットは、Googleの検索APIを使用して収集された実際のユーザーの質問に基づいています。質問は一般的な知識に関するもので、異なる知識ベースを使用して回答を生成するモデルの能力を試すのに適しています。

手法
バイナリツリー検索:
DeepRAGでは、まずバイナリツリー検索を用いてデータを合成し、模倣学習のためのデータを生成します。このステップでは、与えられた問い合わせに関連するサブクエリ毎にバイナリツリーを構築し、パラメトリック知識または外部知識ベースのどちらに基づいてパスを探索します。このプロセスにより、モデルは効果的な情報取得のパターンを学習することができます。
模倣学習:
バイナリツリー検索によって生成されたデータを使用して、DeepRAGは模倣学習を行います。この段階では、「サブクエリ生成 - 原子的決定 - 中間回答」というパターンを模倣することで、LLMが正確な情報取得のタイミングを学習します。これにより、モデルは外部からの情報取得が必要か、あるいは自身のパラメトリック知識に依存するかの判断が向上します。
校正チェーン:
模倣学習を経て、DeepRAGはさらに校正チェーンを用いてモデルの知識境界の認識を微調整します。このステップでは、最適なパスからノードを基にして選好データを構築し、モデルが外部知識の取得が必要かどうかについてのより正確な原子的決定を下すことができるようにします。これにより、モデルは情報取得の効率を向上させると同時に、回答の正確性を高めることが可能になります。

結果
回答の正確性の向上:
DeepRAGは、問題の分解と情報取得のプロセスをマルコフ決定プロセス（MDP）としてモデル化することで、各サブクエリに対して外部知識を取得するか、または既存のパラメトリック知識にのみ依存するかを動的に決定します。この戦略的かつ適応的なアプローチにより、回答の正確性が従来の方法と比較して21.99%向上しました。これは、DeepRAGが不必要な情報取得を避け、より関連性の高い情報に基づいて回答を生成する能力によるものです。
情報取得の効率の改善:
DeepRAGは、問題を適切に分解し、必要な情報のみを効率的に取得することができます。このプロセスは、無駄な情報取得を最小限に抑え、情報取得の回数とそれに伴うコストを削減します。具体的には、問題に必要な情報を正確に特定し、それに基づいて適切な外部知識を取得することで、無関係な情報による混乱や誤りを防ぎます。
最適化の有効性の実証:
DeepRAGの実験結果は、複数のオープンドメインQAデータセットを使用して評価され、その結果、DeepRAGは従来の手法よりも優れたパフォーマンスを示しました。これにより、DeepRAGが推論拡張生成の最適化において非常に有効であることが示されています。特に、時間に敏感な問題や異なる知識ベースを要する問題に対しても、高い精度と効率を達成しています。

DeepRAG: Thinking to Retrieval Step by Step for Large Language Models

いいなと思ったら応援しよう！