見出し画像

Gymで強化学習⑤マルコフ決定過程

前回の記事では手動で宇宙船を動かすエージェントを取り扱いました。実際に試してみると、初めの頃に取った行動が最終的に着陸できるかどうかに大きく影響するのがわかります。上空での操作によっては地上に近づいた頃にはもう手遅れでどのようなコントロールを行なっても取り返しがつかなくなります。とはいうものの過去の失敗を悔やまずに、現在の状態から未来に向けて最善な行動を行い続けるしかありません。

そんなわけで手動ではほぼ着陸できないのですが、強化学習でこのような問題をどう捉えるのかを今回の記事では解説します。


ここから先は

4,552字 / 4画像

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?