LLMの強化学習における新手法:TR-DPOの論文紹介
論文名
Learn Your Reference Model for Real Good Alignment
arXivリンク
https://arxiv.org/pdf/2404.09656.pdf
ひとこと要約
Direct Preference Optimization (DPO)を改良したTrust Region DPO (TR-DPO)を提案。
メモ
背景
従来のアラインメント手法は人間の選好に基づいて訓練された報酬モデルの値を最大化する強化学習が用いられてきたが、不安定かつ複雑であるという問題があった。Direct Preference Optimization(DPO)は、報酬モデルを使わずにデータから直接最適化を行うことで、この問題を解決しているものの、DPOには訓練中のリファレンスポリシーが固定されているという制約があった。
TR-DPO
Trust Region DPO(TR-DPO)はDPOの制約を取り除き、訓練中にリファレンスポリシーを更新できる手法である。
リファレンスポリシーの更新により、モデルは初期のSFTポリシーを超えて探索することができ、より良い収束が可能になると期待される。
リファレンスポリシーの更新には、ソフトアップデートとハードアップデートの2つの方法が用いられる。
ソフトアップデート
現在採用しているポリシーとリファレンスポリシーを重み付きで合成する。重み付けファクターαは0から1の範囲の値を取り、各訓練ステップでの更新の影響度を決定する。αが0のとき、TR-DPOはDPOと等価になる。
ハードアップデート
一定の訓練ステップ数τごとにリファレンスモデルを更新されたポリシーで直接置き換える。τは自然数であり、更新の頻度を制御するパラメータである。
実験方法
データセット
Anthropic-HH
Reddit TL;DR
モデル
410M、2.8B、6.9B、12BのPythia
TR-DPOのパラメータ
ソフトアップデート
αを0.1から0.8まで0.1刻みで評価
ハードアップデート
τを2^nに設定し、n=5, ..., 10の範囲で評価
評価
GPT-4を用いたAutoSxS評価
一貫性、正確性、詳細度、有用性、無害性に対するProbability of Improvement(PoI)推定
結果
TR-DPOはDPOと比較して最大19%の性能向上が見られた
特にαが0.5から0.7の範囲、τが256から512の範囲で最も高いパフォーマンスが得られることが明らかになった。また、TR-DPOは人間中心の指標においてもDPOを上回ることが統計的に示された。
TR-DPOは長い文章の生成においても適切にパラメータを調整することで、多様性を維持しつつ人間の選好に適合した文章を生成できると示唆
αの値を大きくする、またはτの値を小さくすると生成文章がより長くなる傾向がある。
αの値を小さくする、またはτの値を大きくすると生成文章がより短くなる傾向がある。
この記事が気に入ったらサポートをしてみませんか?