見出し画像

FireAct: Language agent × LLM fine-tuning における新しい枠組みの提案

#FireAct #LLM #エージェント #多読 #論文紹介

Chen+'23 - FireAct: Toward Language Agent Fine-tuning

Baian Chen, Chang Shu, Ehsan Shareghi, Nigel Collier, Karthik Narasimhan, Shunyu Yao
[Paper][Model][Dataset][GitHub]

※ 誤っている可能性のある内容、未紹介の内容がございます
※ 詳細は必ず 論文 をご参照ください

1. どんなもの?

言語エージェントと言語モデルのファインチューニングはどちらもよく知られたトピックであるが、両者の交わりはあまり研究されていない。本研究は、エージェント的な使用のためにLMを微調整することの複数の利点を示すための最初のステップであり、言語エージェントの微調整に向けた様々な新しい問題を開くものである。

2. 先行研究と比べてどこがすごい?


図1. 本研究では Language agent × LM fine-tuning における利点や問題点を示す

3. 技術や手法のキモはどこ?

GPT-4 を用いて ReAct 形式の軌跡を生成し微調整

  • 複数タスクと複数プロンプト手法を混合させて多様なデータを作成

    • 学習データは SerpAPI と GPT-3.5/4 を使用して作成

    • Llama-2, CodeLlama を対象に LoRA を使用して微調整

図2. FireAct 概要。(a) Fine-tuning フェーズにおいて GPT-4 は Multi-task Questions × Multi-method Prompts に基づいてタスクの導出方法(=軌跡: trajectories)を生成する。正しいと判断された軌跡を ReAct 形式に変換することで LLama2 を微調整する。(b) Inference フェーズでは微調整済みの FLM は ICL 事例なしのゼロショットで動作し、複雑な質問に対する解を導出するための ReAct 軌跡に基づいて回答を行う。

4. どうやって有効だと検証した?

評価タスク

  • HotpotQA … 多段階推論と知識検索を伴う質問応答タスク。答えは、短いエンティティか YES/NO 形式。学習セットから微調整用に 2,000 件、開発セットから評価用に 500 件を無作為に選択。

  • Bamboogle … HotpotQA と同様の形式を持つ 125 件の多段階推論による評価セット。Google 検索による直接的な解答を避けるよう作成される。

  • StrategyQA … 暗黙的な推論過程を必要とする Yes/No 形式の質問応答タスク。

  • MMLU … 初等数学、歴史、コンピュータサイエンスなど 57 領域の選択肢付質問応答タスク。

#Sec5. 1 タスク 1 プロンプト

  • HotpotQA × ReAct のデータによる微調整

Table 1 では GPT-3.5/4 による追加学習を伴わない推論結果を示し、Table 2 では ReAct, FireAct の結果を示す。Table 2 の ReAct との比較から微調整により HotpotQA の正解率が大幅に効上。7B モデルに加えて GPT-3.5 でも同様に正解率向上が見られたことからパラメータ数に依存せず微調整が有効であることを示した。また FireAct Llama-2-13B は GPT-3.5 ReAct 結果を凌駕。

#Sec6. 1 タスク複数プロンプト

  • HotpotQA × {ReAct, CoT, Reflexion} のデータによる微調整

HotpotQA において ReAct+CoT は EM を改善し軌道長 (#Turns) を短くし、ReAct+Reflexion は EM を悪化させ軌道長を長くする。

#Sec7. 複数タスク複数プロンプト

  • {HotpotQA, StrategyQA, MMLU} × {ReAct, CoT, Reflexion} のデータによる微調整

HotpotQA/Bamboogle において HotpotQA, Multi-task での学習差はほとんど見られない(性能低下もない)。Multi-task, Multi-task+CoT では、全てのタスクで性能向上が見られたことから、多様な推論方法に基づく学習セットの構築の有効性が示唆される。また MMLU において Prompting IO が最も高い性能となったのは、簡単すぎるタスク設定や回答選択肢の暗記が原因であると考えられる。

5. 議論はある?

  • Llama-2, CodeLlama の FireAct モデルが GPT-3.5 と同等以上の性能を示した。これは OpenAI API を用いたエージェントに対して、安価で高速なエージェントを開発可能であることを示唆する。また FireAct モデルはゼロショットによる推論が可能であることも、効率的なアプリケーション開発において注目に値する。

(Cost per trial)GPT-3.5 と FireAct による推論コストの比較において FireAct では 推論時間が 70% 短縮(1 試行あたり 9.0 秒から 2.7 秒の短縮)される。(Obs. Robustness)通常の検索結果 (Normal) に加え、検索結果が None, Random である場合の性能結果を示す。ReAct に対して FireAct の性能低下が小さいのは微調整の軌跡には検索クエリの例が含まれていることに起因すると考えられる。(Generalization)検索結果から直接回答が導出できない Bamboogle の評価セットに対する結果。
  • データサイズと種類については以下に言及される。

モデル規模が大きい場合に CoT が有効であることは先行研究でも言及されている通りか。

6. 次に読むべき論文は?

  • Wei+'22 - Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (NeurIPS) [OpenReview]

https://speakerdeck.com/smiyawaki0820/2023-dot-03-dot-21-gpt-4-prompt-bao-gao-hui
  • Yao+'23 - ReAct: Synergizing Reasoning and Acting in Language Models (ICLR) [Project]

https://speakerdeck.com/smiyawaki0820/2023-dot-03-dot-21-gpt-4-prompt-bao-gao-hui
  • Shinn+'23 - Reflexion: Language Agents with Verbal Reinforcement Learning [arXiv]

https://speakerdeck.com/smiyawaki0820/2023-dot-03-dot-21-gpt-4-prompt-bao-gao-hui
https://speakerdeck.com/smiyawaki0820/2023-dot-03-dot-21-gpt-4-prompt-bao-gao-hui

この記事が気に入ったらサポートをしてみませんか?