![見出し画像](https://assets.st-note.com/production/uploads/images/117738948/rectangle_large_type_2_4893a6ca8d85c0474ae589e7a81cd190.png?width=1200)
Gymで強化学習㊶REINFORCE:実践編③
前回は、REINFORCEの実践でベースラインとして状態価値の予測値を使い実験を行いました。今回は、REINFORCEを行動値が連続になっている環境に適用してみます。
これまで扱ってきた問題では、全て行動は有限の選択肢から選ぶものばかりでした。しかし、今回扱うGymの環境 MountainCarContinuous (マウンテン・カーの連続値版)では、車に適用する力の値を行動の値としています。
![](https://assets.st-note.com/production/uploads/images/118101084/picture_pc_40726ccf199201db4aa2d4dbcccd84f2.gif)
よって連続値の範囲から行動のための値を指定することになりますが、その範囲はー1から+1までとなっており、範囲を超える場合は自動的にクリッピングされます。つまり、ー1より小さい行動値はー1に、+1より大きい行動値は+1となります。
観測値としては、次の2つを受け取ります。
車の位置(x軸)
車の速度
目的は、なるべく少ない力で、速やかに右の黄色側に到着することです。その際のx軸の値は、0.45 以上となります。
報酬は、ゴールに到着すると+100を受け取りますが、それまでは罰則として各ステップごとに次の値が与えられます。
$$
-0.1 \times \text{action}^2
$$
なお、車の初期位置は、x軸で-0.6から-0.4の間にランダムに設定されます。x軸が-0.5だと谷底です。初期速度は0になります。
では、さっそく実装を始めましょう。
この記事が気に入ったらチップで応援してみませんか?