[備忘録] E資格対策 補講動画 (3/4): 自走できるAI人材になるための6ヶ月長期コース
今回は「キカガクさんの半年にわたる講義の備忘録」ではなく、受講する特典の「E資格対策用の補講動画」の備忘録 3記事目です。
備忘録
セクション12: 深層学習〜RNN〜 (0h 52m)
・LSTM (Long Short Term Memory)
必要な知識
h: 隠れ状態ベクトル
C: 記憶セル
tanh関数
Sigmoid関数
LSTM の構造 (図を使って説明)
ーoutput gate: 次へ何%だけ通すか
ーforget gate 何を忘れるのか
ー新しい記憶セル 新しく覚えるべき情報を追加
ーinput gate 追加情報にどれだけ価値があるかを判断
・GRU (Gated Recurrent Unit)
LSTM をシンプルにしたもの
更新ゲートを用いる。計算量は少なくなるが表現力が低くなる。
・Gradient Clipping (勾配のクリッピング)
勾配の値に閾値を定める方法
・双方向RNN (Bi-directional RNN)
未来から過去の方向に対しても学習を行う
効果的なケースは文章推敲、機械翻訳など
・Attention Mechanism (注意機構)
文章などの連続データにおいて過去のどの情報により着目(注意)すべきであるかも学習するモデル
セクション13: 深層学習〜生成モデル〜 (0h 59m)
入力データを学習して新しいデータを生成する。画像の生成が有名。
・AE (Auto Encoder)
これは次元削減に利用される
潜在変数 z
encoder / decoder → 教師なし学習
活性化関数は恒等関数を用いる
・VAE (Variational Auto Encoder)
生成モデル
潜在変数z 正規分布となるように学習する
尤度関数を用いる
・CVAE (Conditional VAE)
Conditional 状態・条件 → ラベル
・GAN (Generative Adversarial Networks) 敵対的生成ネットワーク
ーDCGAN ... Deep Convolutional GAN
Generator (生成器) vs Discriminator (識別器)
最終的にGenerator から出力される画像の精度が上がる (本物に近く)
本物か偽物か区別がつかないので確率は50% に近く
ー Conditional GAN
セクション14: 深層学習〜強化学習〜 (1h 13m)
Reinforcement Learning (RL)
・用語の説明
a: 行動
s: 状態
報酬 (r): 即時的な行動の良さ
価値 (Q): 得られる収益の期待値
環境
ーQ学習 (強化学習のアルゴリズムの一つ)
迷路の探索を例に説明
ーエピソードとQ値
ーQ値の更新式
・深層強化学習
DQN: Deep Q-Network (Deep Learning + Q学習)
ブロック崩しゲームを例に説明
課題:状態の定義が難しい(バーの位置、ボールの位置、ブロックの崩れ具合など)
学習の工夫
ー Experience Reply
ー Fixed Target Q-Network
ー 報酬のCliping