見出し画像

Gymで強化学習㊷Actor-Critic:理論編

前回は、マウンテン・カー(連続値)の環境にREINFORCEを適用し実験しました。多少工夫は必要でしたが最終的には毎回ゴールに到着できるようになりました。

今回は、Actor-Criticの理論的な側面を解説します。といっても、Actor-Criticの理論は、REINFORCEの延長線上にあります。よって、ポリシー勾配法の一種になります。

では、さっそく始めましょう。


ここから先は

3,984字

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?