2-3.機械学習の基礎(強化学習の内容と統計学)
①強化学習の内容
‐バンディットアルゴリズム
②ε-greedy方策
③UCB方策(upper-confidence bound policy)
④マルコフ決定過程モデル
⑤価値関数
⑥方策勾配法
⑦統計学
(補足)半教師あり学習
⑧アンサンブル学習
①強化学習の内容
強化学習は、環境から状態を受け取り、そこからより高い報酬を受け取れるような行動を選択するよう学習していくこととなります。これは、「将来にわたって獲得できる累積報酬を最大化する」と考えられます。
ちなみに、機械学習プロセスを制御するために使用されるパラメータの事をハイパーパラメータと言います。
(ハイパーパラメーターの補足)
グリッドサーチとは、ハイパーパラメータを求める方法の1つで、適切だと考えられるパラメータを複数用意し、それらの値の組み合わせを全通り総当たりで行い、最も良いハイパーパラメータを探す方法である。
ランダムサーチとは、考えられるパラメータの範囲を決め、ランダムにパラメータを組み合わせて学習させ、最も良いハイパーパラメータを探す方法である。
累積報酬が最大となるように行動を選択するとなっても、行動の組み合わせは無限にあります。そのため、ここで用いられる考え方が、活用と探索になります。活用と探索の違いは、以下となります。
「活用」は、知ってる情報から報酬が最大になるように行動を選択
「探索」は、知ってる情報以外の情報を獲得するために行動を選択
上記の活用と探索のバランスをとるために、バンディットアルゴリズムが利用されます。バンディットアルゴリズムとは、経験を蓄積するために行動する「探索」と経験を生かして行動する「予測」を最適化する強化学習の手法です。具体的な手法に、ε-greedy方策やUCB方策があります。
この記事が気に入ったらチップで応援してみませんか?