Gymで強化学習㊼TRPO:理論編

2023年11月30日 22:09

前回は、A2Cの実装をしました。A3CとA2Cは、Actor-Criticにおける学習の不安定性を解消することを主要な目的としています。今回紹介するTRPO（Trust Region Policy Optimization）もActor-Criticの一種ですが、A2Cなどとは異なる手法によって学習の安定性をもたらしています。

TRPOの手法では、新しいポリシーが古いポリシーから「あまりにも遠くならないように」制限することが可能です。これにより、学習過程においてポリシーが急激に変化し、学習の安定性が損なわれるのを防ぎます。

このためTRPOでは、ポリシーの更新を行う際に、信頼領域（Trust Region）という概念を用いて、新しいポリシーが古いポリシーから大きく逸脱しないように制約を加えます。この記事では、その仕組みの概要を解説します。

では、さっそく始めましょう。

ここから先は

7,962字 / 1画像

キカベン・読み放題

¥1,000 / 月

初月無料

アルゴリズム、機械学習、深層学習、強化学習、量子技術をわかりやすく

すべての記事とマガジンが読み放題
メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

このメンバーシップの詳細

ログイン

この記事が気に入ったらチップで応援してみませんか？