Gymで強化学習⑪動的計画法:実装編
前回はGymの環境であるFrozen Lake(凍った湖)で動くランダムなエージェントと手動エージェントを作成しました。また状態遷移の確率によって最適なポリシーが変わってくることを解説しました。
今回は動的計画法であるポリシー反復法と価値反復法を実装します。
この記事が気に入ったらチップで応援してみませんか?
前回はGymの環境であるFrozen Lake(凍った湖)で動くランダムなエージェントと手動エージェントを作成しました。また状態遷移の確率によって最適なポリシーが変わってくることを解説しました。
今回は動的計画法であるポリシー反復法と価値反復法を実装します。
この記事が気に入ったらチップで応援してみませんか?