AIトレーニングに革命をもたらす:自己報酬型言語モデルの出現
人工知能の世界において、超人的なエージェントを創造するという探求は、自己報酬型言語モデル(SR-LMs)という画期的なアプローチへと導かれています。この革新的なコンセプトは、MetaとNYUの研究者によって先導され、AIが学習と発展において人間の限界を超える未来を垣間見せてくれます。
論文:
現在のトレーニング手法の限界:
従来のトレーニング方法は人間の好みに基づく報酬モデルのトレーニングに依存しているが、これは人間のパフォーマンスレベルに制限される可能性がある。
これらの報酬モデルは、言語モデル(LLM)トレーニング中に改善することができず、固定されている。
自己報酬型言語モデルの提案:
自己報酬型言語モデルは、与えられたプロンプトに対して応答を生成するだけでなく、自分自身のトレーニングセットに新しいインストラクションフォロー例を生成・評価する能力を持つ。
これにより、モデルは自己アライメントを実行し、AIフィードバック(AIF)を使用して反復的に自己トレーニングすることができる。
実験結果:
指示に従う能力の向上:
EFTとIFTのシードトレーニング:評価的ファインチューニング(EFT)タスクをトレーニングに追加しても、指示ファインチューニング(IFT)データのみを使用した場合と比較して、指示に従うパフォーマンスに影響はない(30.5%の勝利対30.9%の勝利)。
自己報酬型トレーニングの第2世代:第1世代と比較して、第2世代は指示に従う能力が大幅に向上(55.5%の勝利対11.7%の勝利)。
第3世代のさらなる進歩:第3世代では第2世代を上回る成果が見られ、勝利率がさらに向上(47.7%の勝利対12.5%の勝利)。
AlpacaEval 2.0 リーダーボードでの優れた成績:
自己報酬型モデル:トレーニングの反復により、GPT-4 Turboに対する勝率が向上。第1世代で9.94%、第2世代で15.38%、第3世代で20.44%。
他の主要モデルとの比較:Claude 2、Gemini Pro、GPT-4 0613など、多くの既存モデルを上回る成績を示す。
報酬モデリング能力の向上:
EFTデータの追加:EFTデータをトレーニングに追加することで、IFTデータのみを使用した場合と比較して、モデルの報酬モデリング能力が向上。
自己報酬トレーニングの効果:自己報酬トレーニングを行うことで、モデルは次の反復で自己報酬を提供する能力に加えて、指示に従う能力も向上。第2世代と第3世代はそれぞれ第1世代と第2世代を上回る成績を達成。
LLM-as-a-Judgeプロンプトの重要性:
LLM-as-a-Judgeプロンプトの比較:異なるプロンプトを使用した初期実験において、点数の付け方を説明するプロンプトが効果的であることが示された。例えば、SFTベースラインで65.1%のペアワイズ精度が達成された。
結論と洞察:
この研究は、AIが人間のフィードバックに基づいて構築された報酬モデルや指示に従うモデルを超越する可能性を秘めていることを示しています。自己報酬型言語モデルは、AIの自己改善の可能性を高め、学習プロセスの制約となるボトルネックを取り除く道を開くものです。これはまだ予備的な研究ではありますが、AIの訓練方法とその能力向上におけるエキサイティングな研究分野であると考えられます。