見出し画像

イラストで学ぶ人工知能概論を再度勉強する 第8章 強化学習

はじめに

とある理由で
「二重文節構造」のアイデアに触れた時から大ファンになった
谷口忠大先生の名著「イラストで学ぶ人工知能概論」を
じっくり勉強しなおしたくなって
改訂第2版を購入しなおした。

本noteは、その備忘録

ホイールダック2号、事前情報がない迷路を探索する

第8章 強化学習

講義スライドと谷口忠大先生本人の講義動画が
谷口忠大先生から提供されています

講義スライド

8.1 強化学習とは何か?

累積報酬を最大化する行動を学習する

8.2 強化学習の理論

ゴールが決まっていない時に、累積報酬が発散するのを防ぐため、
未来ほど報酬が少なくなる割引率を導入する。
割引累積報酬を最大化する

8.3 価値関数

状態価値関数:割引累積報酬の期待値
ベルマン方程式:次状態の状態価値がわかれば現在の状態価値が計算できる
行動価値関数:状態sにおいて行動aをとった後に方策πに従う場合に得られる割引累積報酬の期待値

8.4 学習行動の例:Q学習

Q学習:最適行動価値関数の値を、Q値として推定することで強化学習を実現する
TD誤差:確率的な状態遷移のためにQ値に生じる誤差

グリーディー法:最もQ値が高い行動を選択する→学習が進まなくなる
ランダム法:あらゆる行動をランダムに選択する→割引累積報酬を高める行動が取れない
εーグリーディー法:上記2種類の方法を確率εで混合する
ボルツマン選択:ボルツマン分布と呼ばれる確率分布で行動を選択する

8.5 強化学習の分類とその発展

モデルベース強化学習:環境のダイナミクスと報酬関数をモデル化する
モデルフリー強化学習:環境のダイナミクスと報酬関数をを明示的にモデル化しない

価値ベース強化学習:行動価値関数を求めて行動価値に比較により方策を求める
方策ベース強化学習:直接方策関数を求める

on-policy:強化学習で得たサンプルは、別の強化学習のサンプルとして使用できない
off-policy:強化学習で得たサンプルが、別の強化学習のサンプルとして使用できる

強化学習アルゴリズムは、(ある仮定の下で)確率的生成モデルに基づくベイズ推論として導出される

深層強化学習:深層Q-ネットワークで画像に対して行動ごとの行動価値を学習させる方法を含め、深層学習を用いた強化学習全般を指す

本章の最重要ポイント

マルコフ決定過程において、学習により割引累積報酬を最大化する手法が強化学習である
強化学習に深層Q-ネットワークを用いた手法が深層強化学習である
何を状態や行動とするかが非常に重要

おわりに

山のように専門用語が出てきた。
巻末の問題を解いてしっかり理解することが重要。
自分で問題を設定し、機械学習で解いてみることが理解の助けになるだろう



いいなと思ったら応援しよう!

YANO Tomoaki@
本noteは私の備忘録ですが、自由に読んでください サポートは、興味を持ったnote投稿の購読に使用させていただきます