Gymで強化学習㊺A2C:理論編
前回は、A3C(Asynchronous Advantage Actor-Critic)の紹介をしました。今回は、A3Cから非同期学習をなくした A2C(Advantage Actor-Critic)の仕組みを解説します。
A3CとA2Cは両方とも Actor-Critic における学習の不安定性を改善するのを重要な目的としています。ただし、A3Cでは複数のエージェントが個別の環境で非同期学習を行うために実装する際に幾つかの困難がありました。A2Cは、A3Cの流れを汲むモデルですが、A3Cの代表的な機能である非同期性を必要とせずに学習の不安定性を改善します。
では、さっそく始めましょう。
この記事が気に入ったらチップで応援してみませんか?