Gymで強化学習㊻A2C:実践編
前回は、A2Cの理論的な側面を解説しました。今回は、A2Cを実装してGymの環境で実験を行います。
これまで同様、マウンテン・カー(連続値)の環境を使い実験を行うので以前の結果と比較することができます。A2Cでは、REINFORCEやActor-Criticよりも良い成績が出るでしょうか。
なお実装する際に、A3CとA2Cでは、エントロピーによる正則化を効果的に使うことが重要です。この辺りを詳しく解説します。
それではさっそく始めましょう。
この記事が気に入ったらサポートをしてみませんか?