Gymで強化学習㊷Actor-Critic:理論編
前回は、マウンテン・カー(連続値)の環境にREINFORCEを適用し実験しました。多少工夫は必要でしたが最終的には毎回ゴールに到着できるようになりました。
今回は、Actor-Criticの理論的な側面を解説します。といっても、Actor-Criticの理論は、REINFORCEの延長線上にあります。よって、ポリシー勾配法の一種になります。
では、さっそく始めましょう。
この記事が気に入ったらチップで応援してみませんか?
前回は、マウンテン・カー(連続値)の環境にREINFORCEを適用し実験しました。多少工夫は必要でしたが最終的には毎回ゴールに到着できるようになりました。
今回は、Actor-Criticの理論的な側面を解説します。といっても、Actor-Criticの理論は、REINFORCEの延長線上にあります。よって、ポリシー勾配法の一種になります。
では、さっそく始めましょう。
この記事が気に入ったらチップで応援してみませんか?