見出し画像

Gymで強化学習⑪動的計画法:実装編

前回はGymの環境であるFrozen Lake(凍った湖)で動くランダムなエージェントと手動エージェントを作成しました。また状態遷移の確率によって最適なポリシーが変わってくることを解説しました。

今回は動的計画法であるポリシー反復法と価値反復法を実装します。


ここから先は

20,180字 / 34画像

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?