Gymで強化学習㊽PPO:理論編
前回は、TRPOの理論的な側面を解説しました。TRPOでは。新しいポリシーが古いポリシーからあまり逸脱しないように、信頼領域と呼ばれる制約を導入しました。ただし、TRPOは計算が複雑で、実装が難しいです。特に大規模な問題やモデルにおいては、計算コストが大きくなりすぎる可能性があります。
今回は、PPO(Proximal Policy Optimization)を解説します。
PPOは、TRPOの流れを汲みつつ、より簡略化し、実装しやすくなっています。計算コストも低い、より実用的な手法となっています。そのため、多くの研究者や実践者に好まれています。
PPOは、学習が安定しており、実装も容易で、サンプル効率も良い強化学習の手法です。
では、さっそく始めましょう。
この記事が気に入ったらチップで応援してみませんか?