見出し画像

Gymで強化学習㊳REINFORCE:理論編

前回は、ポリシー勾配法を理論的な側面から解説しました。今回はポリシー勾配法の具体例の一つであるREINFORCEを紹介します。

REINFORCEでは、エージェントが行動を選び、その結果得られる報酬を使って行動の確率を更新します。このアプローチは、生涯報酬(割引報酬の和)が多くなる行動がより高い確率で選ばれるようにポリシーを調整するので、徐々に最適な行動を見つけることができます。

しかし、REINFORCEは報酬のばらつきが大きいと非効率な場合があります。それでも、この手法は理論的には任意の報酬関数とポリシーに対して有効であり、多くの問題で適用が可能です。

では、さっそく始めましょう。


ここから先は

6,901字 / 2画像

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?