Gymで強化学習㊹A3C:紹介編
前回は、Actor-Critic(以下、AC)の実装を行いました。訓練をすばやく行えるのと同時にハイパーパラメータなどの設定によっては学習が不安定になりやすい点もありました。
学習が不安定になりがちなのは、ACの本質的な課題です。そのため、AC系統の強化学習の発展においては、学習の安定化に注力がなされました。
その一つの例として、今回は2016年にDeepMind社が論文で発表したA3C(Asynchronous Advantage Actor-Critic)を紹介します。DeepMindといえば、このシリーズでも何度も取り上げてきたDQNを開発し、その後Googleに買収された会社です。
A3Cは、AtariゲームでDQN以上の高得点を達成しました。しかも、GPUを使わないマルチコアCPUでの訓練によって、それまで必要だった訓練時間を半減することに成功しました。
では、A3Cとはどのような仕組みを使って優秀な成績をより短い訓練時間で叩き出せたのでしょうか。ACにどのような改良を加えたのでしょうか。そこで鍵となるのは、A3Cにおける学習の安定化にあります。今回は、これを解説します。
では、さっそく始めましょう。
この記事が気に入ったらサポートをしてみませんか?