LLMの強化学習をLoRAによって効率化する論文紹介
論文名
PERL: Parameter Efficient Reinforcement Learning from Human Feedback
arXivリンク
https://arxiv.org/pdf/2403.10704.pdf
ひとこと要約
計算コストが高いLLMのRLHFをLoRAで効率化する手法(PERL)を提案
メモ
RLHFは有効なLLMのファインチューニング手法だが、計算コストが高く複雑である。そこでLoRAを用いてパラメータを効率化させたPERLを提案。
PERLは従来のRLHFと同等の性能を発揮しつつ、学習が高速で必要メモリも少ないため、LLMのRLHFを効率化できる。
また強化学習用のデータセットを2つ作成。
Taskmaster Coffee データセット
6,500の多ターン対話で構成され、20,000の学習用例(会話のターンやAPIコール)と3,000の報酬用例を含む。
報酬用のデータセットには、2,775の「thumbs up」ラベル付き例と453の「thumbs down」ラベル付き例が含まれる。
Taskmaster Ticketing データセット
30,000の多ターン対話で構成され、240,000の学習用例と3,000の報酬用例を含む。
報酬用のデータセットには、1,146の「thumbs up」ラベル付き例と2,210の「thumbs down」ラベル付き例が含まれる。