Gymで強化学習㊾PPO:実践編
前回は、PPO(Proximal Policy Optimization)の理論的な側面を解説しました。今回は、PPOを実装してGymの環境で実験を行います。
これまで同様、マウンテン・カー(連続値)の環境を使い実験を行うので以前の結果と比較することができます。PPOでは、A2CやREINFORCEやActor-Criticよりも良い成績が出るでしょうか。
できる限りこれまでの実装とソースコードが同じになるように務めました。よって、異なる点にフォーカスして解説をすることができます。
それではさっそく始めましょう。
この記事が気に入ったらチップで応援してみませんか?