論文解説：「Help Steer to Preference: Complementing Ratings with Preferences」

2024年10月27日 10:19

言語モデルのアライメントに関するリワードモデルの新しいアプローチについてです。
このペーパーでは、異なるリワードモデリングのパラダイムを組み合わせる方法を提案しています。

言語モデルのアライメントにおける主な課題とリワードモデルの役割

言語モデルを正確かつ安全に指示通りに動かすことは重要です。リワードモデルは、応答にスコアを割り当てることで、より高得点で有益かつ安全な出力を生成するようモデルを導きます。最大の課題は、このリワードモデルを最適に訓練する方法の決定です。ペーパーでは、リワードモデルの訓練には2つの一般的なパラダイム、すなわち「ブラッドリー・テリー（Bradley-Terry）」スタイルと「回帰（Regression）」スタイルがあると述べています。

ブラッドリー・テリーと回帰モデルの違い

ブラッドリー・テリーモデルは、同じプロンプトに対する選択された応答と拒否された応答の間のリワード差を最大化することに重点を置いています。一方、回帰モデルは、リッカート尺度などのスコアを各応答に対して個別に予測します。この2つの手法を直接比較することは難しく、これは収集データのフォーマットが異なるためです。

データの不整合性を克服する方法とその意義

著者は、HelpSteer 2データセットにおいて、既存の評価や回帰トレーニングを補完するために、ブラッドリー・テリー訓練用の選好注釈（preference annotations）を提供しました。これにより、適切にマッチしたデータを用いた2つの手法の直接比較が可能になりました。さらに、人間による説明文の追加により、データの解釈可能性が向上しています。これは、フィールドにおいて重要な貢献です。

ブラッドリー・テリーと回帰モデルの比較結果

比較の結果、ブラッドリー・テリーと回帰モデルの両方が、適切に設計され、適切なデータで訓練されると、十分に良好なパフォーマンスを発揮することが分かりました。つまり、データ収集方法よりも、モデルが注釈データの情報を適切にキャプチャすることが重要であることを示唆しています。

両モデルを組み合わせたアプローチとそのパフォーマンス

著者は、ブラッドリー・テリーと回帰モデルを組み合わせ、両方のデータセットから補完的な情報を活用する新しいアプローチを提案しています。このアプローチを用いてLLAMA 3.1の70Bモデルを訓練した結果、「Reward Bench」で94.1のスコアを達成し、他の140以上のリワードモデルを上回る成果を挙げました。

実用面でのインパクトと人間フィードバックを用いた強化学習（RLHF）への影響

この組み合わせアプローチは、より堅牢で正確なリワードモデルを提供し、RLHFのパフォーマンス向上につながります。これにより、言語モデルが指示に従いやすくなり、より有益で安全な応答を提供できるようになります。

選好に対する説明文のリワードモデル訓練への活用

選好に対する説明文を直接利用するのは、スコアを用いる場合ほど効果的ではないことが分かりましたが、タスクごとに複数の説明文を組み込むことでパフォーマンスが向上し、特に「chat-hard」カテゴリーでの結果が良くなりました。

ペーパーで使用されている評価指標とその洞察

このペーパーでは、「Reward Bench」という多様なタスクカテゴリにまたがるベンチマークを使用してリワードモデルのパフォーマンスを評価しています。アラインメントされたモデルには、GPT-4、TurboMT Bench、AlpacaEvil 2.0 Length Controlled、ArenaHardを使用し、有用性を評価しています。結果は、オンラインRLHF手法（PPOやREINFORCEなど）が、DPOのようなオフライン手法よりも優位であることを示しています。

オンライン手法の優位性

オンライン手法、特に「leave-one-outベースライン」で強化されたREINFORCEは、PPOに比べて安定したトレーニングとリワード最大化を提供します。PPOはクリティック関数でのバイアスと不安定性に悩まされることがあります。

最良モデルのパフォーマンスと既存の最先端モデルとの比較

最良のモデル「Scaled BT Expo」は、Reward Benchにおいて、Skywork Reward Gemma227Bなどのトップモデルと競合するパフォーマンスを達成していますが、「chat hard」カテゴリーではやや劣る結果であり、これはトレーニングデータのバイアスが原因である可能性があります。

リワードモデルタイプごとの強みと弱みの要約

•	ブラッドリー・テリーモデル：最高の精度を提供しますが、解釈可能性とスコアのキャリブレーションに欠けます。
•	回帰モデル：解釈可能性とスコアのキャリブレーションに優れていますが、精度はブラッドリー・テリーに劣ります。
•	ペアワイズ・ジャスティファイアモデル：解釈可能性が最も高いものの、精度は低いです。

推論速度は回帰モデルとブラッドリー・テリーモデルの両方で高いです。

各リワードモデルの理想的なアプリケーション設定

•	回帰モデル：SFTデータのフィルタリングに適しています。
•	ブラッドリー・テリーモデル：RLHFに最適です。
•	ペアワイズ・ジャスティファイアモデル：説明が価値を持つ「人間-in-the-loop」の評価に最適です。

論文解説：「Help Steer to Preference: Complementing Ratings with Preferences」

いいなと思ったら応援しよう！