見出し画像

Gymで強化学習㊽PPO:理論編

前回は、TRPOの理論的な側面を解説しました。TRPOでは。新しいポリシーが古いポリシーからあまり逸脱しないように、信頼領域と呼ばれる制約を導入しました。ただし、TRPOは計算が複雑で、実装が難しいです。特に大規模な問題やモデルにおいては、計算コストが大きくなりすぎる可能性があります。

今回は、PPOProximal Policy Optimization)を解説します。

PPOは、TRPOの流れを汲みつつ、より簡略化し、実装しやすくなっています。計算コストも低い、より実用的な手法となっています。そのため、多くの研究者や実践者に好まれています。

また、PPOを開発したOpenAIでは、PPOをChatGPTを含むいくつかの大規模な言語モデルの訓練に使用しています。人間からのフィードバックを取り込んでモデルの応答品質を向上させるRLHFReinforcement Learning from Human Feedback、人間のフィードバックによるの強化学習)というプロセスで、人間がモデルの応答を評価し、その評価(報酬)を訓練データとして使用して、より望ましい応答を生成するようにモデルを調整するというものです。

PPOは、学習が安定しており、実装も容易で、サンプル効率も良い強化学習の手法です。

では、さっそく始めましょう。


ここから先は

5,244字 / 3画像

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらチップで応援してみませんか?