Gymで強化学習㊼TRPO:理論編
前回は、A2Cの実装をしました。A3CとA2Cは、Actor-Criticにおける学習の不安定性を解消することを主要な目的としています。今回紹介するTRPO(Trust Region Policy Optimization)もActor-Criticの一種ですが、A2Cなどとは異なる手法によって学習の安定性をもたらしています。
TRPOの手法では、新しいポリシーが古いポリシーから「あまりにも遠くならないように」制限することが可能です。これにより、学習過程においてポリシーが急激に変化し、学習の安定性が損なわれるのを防ぎます。
このためTRPOでは、ポリシーの更新を行う際に、信頼領域(Trust Region)という概念を用いて、新しいポリシーが古いポリシーから大きく逸脱しないように制約を加えます。この記事では、その仕組みの概要を解説します。
では、さっそく始めましょう。
この記事が気に入ったらチップで応援してみませんか?