見出し画像

Gymで強化学習⑧有限マルコフ決定過程

前回の記事では具体例を通して状態価値関数、行動価値関数、ベルマン方程式などを復習しました。その際に、1次元のグリッド・ワールドを使いました。グリッド・ワールドを使ったのは状態の数が有限になり理解しやすいからです。また、行動も有限にして取り扱いやすくしました。

状態と行動が有限なので状態価値関数や行動価値関数を配列や表にして表現することができます。このように表形式(Tabular)が使えるような環境におけるマルコフ決定過程を有限のマルコフ決定過程(Finite Markov Decision Process)と呼びます。

有限のマルコフ決定過程では、最適なポリシーを見つけるための代表的な手法として以下があります。

  • 動的計画法

  • モンテカルロ法

  • TD法

  • SARSA

  • Q学習

Richard Suttonが書いた有名な強化学習の本「Reinforcement Learning, An Introduction」では、有限のマルコフ決定過程における強化学習を解説する際に、動的計画法から段階的にQ学習へと知識を積み上げています。

また、ディープマインドでアルファ碁などを研究開発したDavid Silverによる講義ビデオでも同様な順序に従っており、ほぼRichard Suttonの本の流れに従っています(彼の講義ビデオの中で上記の本を参照しています)。

よって、この記事では動的計画法からQ学習への大まかな流れを上記のリストに従って解説します。


ここから先は

6,822字

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?