前回は、ActorCriticの理論的な面を解説しました。今回は、前々回と同様にマウンテン・カー(連続値)の環境を使い実験を行います。
コード上での変更部分は、それほど多くはなく主に訓練ループの部分が変わります。ただし、ActorCriticでは、毎ステップでポリシーのパラメータを更新するために過学習になりやすく学習が不安定となる問題があります。今回は、どのように対処したのかについても解説します。
なお、マウンテン・カーの連続値版の環境の詳細は、前々回の記事を参照してください。
それでは、さっそく始めましょう。