見出し画像

Gymで強化学習㊸Actor-Critic:実践編

澁谷直樹 @ キカベン

2023年10月23日 16:41

前回は、ActorCriticの理論的な面を解説しました。今回は、前々回と同様にマウンテン・カー（連続値）の環境を使い実験を行います。

コード上での変更部分は、それほど多くはなく主に訓練ループの部分が変わります。ただし、ActorCriticでは、毎ステップでポリシーのパラメータを更新するために過学習になりやすく学習が不安定となる問題があります。今回は、どのように対処したのかについても解説します。

なお、マウンテン・カーの連続値版の環境の詳細は、前々回の記事を参照してください。

それでは、さっそく始めましょう。

ここから先は

15,076字 / 2画像

キカベン・読み放題

¥1,000 / 月

初月無料

アルゴリズム、機械学習、深層学習、強化学習、量子技術をわかりやすく

すべての記事とマガジンが読み放題
メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

このメンバーシップの詳細

この記事が気に入ったらチップで応援してみませんか？