見出し画像

Gymで強化学習㊳REINFORCE：理論編

澁谷直樹 @ キカベン

2023年9月16日 23:43

前回は、ポリシー勾配法を理論的な側面から解説しました。今回はポリシー勾配法の具体例の一つであるREINFORCEを紹介します。

REINFORCEでは、エージェントが行動を選び、その結果得られる報酬を使って行動の確率を更新します。このアプローチは、生涯報酬（割引報酬の和）が多くなる行動がより高い確率で選ばれるようにポリシーを調整するので、徐々に最適な行動を見つけることができます。

しかし、REINFORCEは報酬のばらつきが大きいと非効率な場合があります。それでも、この手法は理論的には任意の報酬関数とポリシーに対して有効であり、多くの問題で適用が可能です。

では、さっそく始めましょう。

ここから先は

6,901字 / 2画像

キカベン・読み放題

¥1,000 / 月

初月無料

アルゴリズム、機械学習、深層学習、強化学習、量子技術をわかりやすく

すべての記事とマガジンが読み放題
メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

このメンバーシップの詳細

この記事が気に入ったらチップで応援してみませんか？