イラストで学ぶ人工知能概論を再度勉強する 第8章 強化学習
はじめに
とある理由で
「二重文節構造」のアイデアに触れた時から大ファンになった
谷口忠大先生の名著「イラストで学ぶ人工知能概論」を
じっくり勉強しなおしたくなって
改訂第2版を購入しなおした。
本noteは、その備忘録
ホイールダック2号、事前情報がない迷路を探索する
第8章 強化学習
講義スライドと谷口忠大先生本人の講義動画が
谷口忠大先生から提供されています
8.1 強化学習とは何か?
累積報酬を最大化する行動を学習する
8.2 強化学習の理論
ゴールが決まっていない時に、累積報酬が発散するのを防ぐため、
未来ほど報酬が少なくなる割引率を導入する。
割引累積報酬を最大化する
8.3 価値関数
状態価値関数:割引累積報酬の期待値
ベルマン方程式:次状態の状態価値がわかれば現在の状態価値が計算できる
行動価値関数:状態sにおいて行動aをとった後に方策πに従う場合に得られる割引累積報酬の期待値
8.4 学習行動の例:Q学習
Q学習:最適行動価値関数の値を、Q値として推定することで強化学習を実現する
TD誤差:確率的な状態遷移のためにQ値に生じる誤差
グリーディー法:最もQ値が高い行動を選択する→学習が進まなくなる
ランダム法:あらゆる行動をランダムに選択する→割引累積報酬を高める行動が取れない
εーグリーディー法:上記2種類の方法を確率εで混合する
ボルツマン選択:ボルツマン分布と呼ばれる確率分布で行動を選択する
8.5 強化学習の分類とその発展
モデルベース強化学習:環境のダイナミクスと報酬関数をモデル化する
モデルフリー強化学習:環境のダイナミクスと報酬関数をを明示的にモデル化しない
価値ベース強化学習:行動価値関数を求めて行動価値に比較により方策を求める
方策ベース強化学習:直接方策関数を求める
on-policy:強化学習で得たサンプルは、別の強化学習のサンプルとして使用できない
off-policy:強化学習で得たサンプルが、別の強化学習のサンプルとして使用できる
強化学習アルゴリズムは、(ある仮定の下で)確率的生成モデルに基づくベイズ推論として導出される
深層強化学習:深層Q-ネットワークで画像に対して行動ごとの行動価値を学習させる方法を含め、深層学習を用いた強化学習全般を指す
本章の最重要ポイント
マルコフ決定過程において、学習により割引累積報酬を最大化する手法が強化学習である
強化学習に深層Q-ネットワークを用いた手法が深層強化学習である
何を状態や行動とするかが非常に重要
おわりに
山のように専門用語が出てきた。
巻末の問題を解いてしっかり理解することが重要。
自分で問題を設定し、機械学習で解いてみることが理解の助けになるだろう