Gymで強化学習㊲ポリシー勾配法:理論編
前回は、Atariゲーム環境におけるDueling DQNの実験結果を報告しました。今回は新たなテーマ、ポリシー勾配法に焦点を当てます。
これまでずっと、ポリシーとして行動価値を最大化する行動選択を行う手法を解説してきました。行動価値ベースのポリシーでは、必ず行動価値の計算が不可欠です。
しかし、最終的な目的は最適な行動を選ぶことであり、行動価値の計算はそこへたどり着くための手段でしかありません。
この記事では、行動価値を参照せず、状態から直接行動を選ぶポリシー勾配法について解説します。つまり、状態から直接に最適な行動を予測します。といっても価値関数の概念が完全に切り捨てられるわけでもありません。それについては追々に解説していきます。
「状態から直接的に最適な行動を選ぶにはどうすれば良いのか」
この新しい視点で強化学習を考えることで、異なるアプローチの可能性を探ることができます。
では、さっそく始めましょう。
この記事が気に入ったらサポートをしてみませんか?