Gymで強化学習㊿モデルフリーとモデルベース
この記事では、Gym環境の準備から始まったシリーズの総括を行います。また、これまで主にモデルフリーの強化学習を学んできましたが、視野を広めてモデルベースの強化学習についても少し触れます。
では、さっそく始めましょう。
ベルマン方程式
まず、強化学習の基本的な仕組みやマルコフ性の解説を通してエージェントが環境との相互作用を通じて学習するマルコフ決定過程を理解しました。
ベルマン方程式によって、ある状態の価値とその次に取り得る状態の価値との関係性を理解しました。その簡単な具体例としてグリッドワールドを取り上げ、ポリシーによって最適な状態へと遷移することで生涯報酬を高めることが強化学習の一般的な目的になります。
マルコフ決定過程
最初の頃は、状態と行動が有限で状態価値関数や行動価値関数をテーブルとして表現することができる有限マルコフ決定過程において最適なポリシーを探す次のような手法を学びました。
そして、有限の状態と行動に収まり切らない強化学習を行う手段として深層強化学習が登場しました。
深層強化学習
その次に、連続的な状態を対象とする強化学習を扱いました。そこでは価値関数を何らかの関数によって近似する手法を使います。線形近似によるQ学習を実践してその限界も見えてきました。
近似関数として代表的なものはニューラルネットワークです。しかし、単人にQネットワークを実装しても学習は安定しません。そこでDQN(Deep Q ~Network)が登場します。月面着陸の環境を使い一連のDQNエージェントと関連するテクニックを実装しました。
さらに、アタリのゲーム環境での深層強化学習を扱いました。ここまでの強化学習エージェントは価値を最大化する行動を選ぶタイプのものでした。これは、価値ベースと呼ばれる手法であり状態価値や行動価値の予測に重点が置かれています。行動選択に関しては、行動価値が高いものを選ぶだけというわけです。
ポリシー勾配法
しかし、強化学習には行動そのものを評価する手法としてポリシー勾配法があります。ポリシー勾配法ではエージェントが直接行動を選択します。また、離散的な行動だけでなく連続的な行動を扱うことに向いています。
次のような代表的な手法がありました。
特にPPOはOpenAIがInstructGPTやChatGPTなどで行ったRLHFを使った訓練において利用されており現在でも有力な手法となっています。
なお、ポリシー勾配法に代表される手法をまとめてポリシーベース(方策ベース)と呼びます。
この記事が気に入ったらチップで応援してみませんか?