見出し画像

【論文瞬読】大規模言語モデルを特定ドメインに適応させる新手法RAFT

こんにちは!株式会社AI Nest です。
今日は、大規模言語モデル (LLM) を特定ドメインに適応させるための新しい学習レシピ「RAFT」について紹介します。

タイトル:RAFT: Adapting Language Model to Domain Specific RAG
URL:https://arxiv.org/abs/2403.10131
所属:UC Berkeley
著者:Tianjun Zhang, Shishir G. Patil, Naman Jain, Sheng Shen, Matei Zaharia, Ion Stoica, Joseph E. Gonzalez

 RAFTとは?

RAFT (Retrieval Augmented Fine Tuning) は、事前学習済みのLLMを特定ドメインのRetrieval Augmented Generation (RAG) タスクに適応させるための手法です。RAFTは、質問に答えるために役立たない文書 (distractor documents) を無視するようモデルを学習させることで、ドメイン特化型のオープンブック質問応答においてモデルの性能を向上させます。

RAFTの概要を示す図
1. ファインチューニングベースのアプローチ
入力文書を直接「暗記」する, 文書を参照せずに練習問題に答える
2. インコンテクスト検索法
固定されたドメインによる学習機会を活用できない, 勉強せずに答える
3. RAFT(提案手法)|
質問と答えのペアを用いてファインチューニング, 不完全な検索をシミュレートしながら学習

RAFTの仕組み

RAFTの学習では、正解の文書 (oracle documents) と撹乱させる文書
(distractor documents)を含むデータセットを用います。モデルは、oracle documents から答えを生成しつつ、distractor documentsを無視するように学習します。また、Chain-of-Thoughtを用いて答えを生成することで、モデルの推論プロセスの解釈性を高めています。

RAFTアルゴリズムの詳細
Chain-of-Thoughtを生成するためのRAFTプロンプトの例

RAFTの有効性

論文では、PubMed、HotpotQA、Gorilla APIベンチマークなどの異なるドメインのデータセットでRAFTを評価しています。その結果、RAFTがドメイン特化型のファインチューニングやRAGと比較して一貫して性能を向上させることが示されました。特に、Chain-of-Thoughtを使用することで、HotpotQAやHuggingFaceデータセットにおいて大幅に性能が向上しています。

様々な特殊ドメインにおける、RAFTとベースラインモデルの性能比較
Chain-of-Thoughtの有無によるRAFTの性能の違い


さらに、RAFTモデルはテスト時の文書数の変化に対しても頑健であることが示されています。

RAFTモデルのテスト時の文書数に対する頑健性


解釈

LLMの実用的な応用を考える上で、特定ドメインへの適応は重要な課題であり、RAFTはその問題に対する有望なアプローチの1つだと思います。学習時にdistractor documentsを含めることで、モデルが不完全な検索結果に対して頑健になる点が特に興味深いです。また、Chain-of-Thoughtによる答えの生成は、モデルの解釈性を高める上でも有効だと感じました。

一方で、RAFTのハイパーパラメーターの設定方法など、手法の詳細についてもう少し議論があると良いですね。また、より大規模なモデルやデータセットでの評価も今後の課題として興味があります。

まとめ

RAFTは、LLMを特定ドメインに適応させるための新しいアプローチであり、様々なデータセットで有効性が示されています。特定ドメインへのLLMの適応に関する研究の発展に寄与する重要な論文だと言えるでしょう。

みなさんも、RAFTを参考に、LLMの実用的な応用にチャレンジしてみてはいかがでしょうか?