Gymで強化学習㉔月面着陸:DQN編
前回、DQN(Deep Q-Network)を実装してカートポールの環境で実験しました。今回は、月面着陸の環境でDQNを実践します。
今回は、前回の実装に以下の改良を加えました。
Tensorboard(テンソルボード)の導入
訓練用とテスト用のエージェントの分離
いくつかの訓練設定のオプションを追加
また、後でDouble DQNやDueling DQNを実装しやすいように細かい変更を加えています。それについては次回以降に解説します。
この記事では、リファクタリングされたDQNのコードと実験結果を解説します。
では、さっそく始めましょう。
この記事が気に入ったらチップで応援してみませんか?