見出し画像

Gymで強化学習⑪動的計画法：実装編

澁谷直樹 @ キカベン

2023年3月19日 15:04

前回はGymの環境であるFrozen Lake（凍った湖）で動くランダムなエージェントと手動エージェントを作成しました。また状態遷移の確率によって最適なポリシーが変わってくることを解説しました。

今回は動的計画法であるポリシー反復法と価値反復法を実装します。

ここから先は

20,180字 / 34画像

キカベン・読み放題

¥1,000 / 月

アルゴリズム、機械学習、深層学習、強化学習、量子技術をわかりやすく

すべての記事とマガジンが読み放題
メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

このメンバーシップの詳細

この記事が気に入ったらチップで応援してみませんか？