6-4.ディープラーニングの詳細な説明(深層強化学習等)

2023年12月30日 14:26

強化学習では、環境と学習目的を設定する必要があります。環境は、状態、行動、報酬、遷移確率などを含みます。エージェントは、最適な行動を選択するために「状態」を学習します。選択された行動によって、エージェントは「報酬」を得ます。報酬に基づいて、エージェントは、学習目的に近づくための行動選択を改善します。また、その際に利用されるエージェントが持つ行動選択のルールは「方策」と呼ばれます。以下に、強化学習の各手法を解説していきます。

①Q学習
②ε-greedy方策
③SARSA
④深層強化学習の補足
⑤DQNの拡張手法
⑥敵対的攻撃
⑦A3C
⑧事前学習（pre-trainimg）モデル
- GPT
- BERT
⑨ノイジーネットワーク
⑩Rainbow
⑪ドメインランダマイゼーション

①Q学習（Q値=価値関数）

Q学習は、TD(Temporal Difference learning)学習の1つでQ値（価値関数）ベースの強化学習法である。Q値とは、ある状態のときにとった行動の価値を、Qテーブルと呼ばれるテーブルで管理し、行動するごとにQ値を更新していく方法である。実行するルールに対して、そのルールの有効性を示すQ値という値を持たせ、エージェントが行動するたびにその値を更新する。

②ε-greedy方策

ε-greedy方策とは、Q学習などで用いられる方法であり、ランダムに行動を選ぶ（探索）と報酬平均が最高な行動を選ぶ（活用）を繰り返し、探索と活用のバランスを取りながら累積報酬の最大化を目指します。εがハイパーパラメータなので、これをうまく調節することが重要となってきます。また、探索が行われる確率が固定されているため、いつまで経っても探索がランダムに起きる問題があります。

③SARSA

SARSA（State-Action-Reward-State-Action）は、強化学習の一種であり、価値ベースの手法の一つです。SARSAは、エージェントが状態と行動のペア（State-Action）を評価し、それに基づいて行動を選択することを学習します。SARSAのアルゴリズムでは、エージェントが環境とやり取りをしながら、状態を観測し、行動を選択し、報酬を受け取り、再び新たな状態に遷移します。この遷移の際に得られた新しい状態と行動のペアを評価し、次の行動選択に利用します。

具体的な手順としては、以下のようになります：

ここから先は

3,440字

この記事のみ ¥ 100

随時情報を更新していきますので、G検定対策だけでなく、そもそもAIって何なのという疑問も解決します。 G検定対策はこれだけで十分です。

売れてます！G検定対策の決定版　これだけで十分　合格者多数

500円

G検定対策として、現役トップデータサイエンティスト兼経営コンサルタント集団がマガジンを発行しました。

ログイン

この記事が気に入ったらチップで応援してみませんか？