強化学習で遊ぶ part2 「AIにサッカーさせてみる」

ナガメ研究所🎲🤖

2022年12月23日 11:56

UnityのML-agentsを利用し、サッカーAIを強化学習で育てる記事です。
～～～前回の内容はこちら～～～

はじめに

博士じゃ。前回に引き続き、強化学習で遊んでいくぞ。

助手です！前回はサッカーのルールも教えてないのに、AIが自ら学習してゴールまで決めてましたね！
けど、もっと沢山のナガメ(AI)でサッカーするのを見てみたいですね。

前回は学習を早めるために、狭い空間で2対2のサッカーをさせたの。次は人数を増やしてみるぞ。助手くん、設定を頼む。

了解です！マップのサイズを2倍、人数を1チーム2人から4人にしてみますね。

フィールドサイズ拡大とAIをさらに4人追加

コピペしたAIをAgentsListに追加
Elementの追加は右下の+ボタンからできます

報酬の変更

できました！早速学習を始めますね！

まあ待つのじゃ。学習環境をよく見ると、ボールをゴールに入れるにはかなりの回数キックせねばならん。こういう学習は、報酬が疎になりやすい(ほとんど報酬がもらえない)。まずはちょっとしたことで報酬を与えてやらねばならん。

ちょっとしたこと・・・。じゃあ、ボールにタッチするごとに報酬を与えるようにしてみます！

これで、ボールにタッチするごとに0.1(変更した値)×0.2(サンプルで設定された値)=0.02の報酬がもらえるようになりました。それでは強化学習スタート！

～～～1日後～～～

さて、どうなったか見てみるかの。

学習結果1

おお、ゴールが決まっていますね。よく見ると、攻めている赤チームは全員がボールに向かっていかないで、自陣もバランスよく守っているように見えます。私だったら周りを見ないでボールに走っちゃいそう・・・。

こちらの試合では、壁際で攻防しているのが見えるの。場外のないフィールドならではの押し合いは2対1で赤チームが不利じゃったが、青チームが開けたスキを通しておる。AI同士ならではの駆け引きがありそうじゃな。

パスとかはしてないんですね～。学習が足りないのでしょうか？

この学習環境じゃと、サッカーボールをキックしているというより押しているようじゃ。ボールを軽くするか、キックのパワーを調整してやればうまくいかないかのう。

やってみますね。

キックパワーをアップしてみる

AgentSoccer.csの113行目
m_KickPowerパラメータを変更

ポイントじゃが、パラメータを変えたからといって学習を最初から始める必要はない。学習済みのモデルを使い、段階的にタスクや難易度をあげて学習させることを”カリキュラム学習”といったりする。問題が難しい場合は、簡単な問題(ボールを触るだけで報酬を貰えるなど)にわけるカリキュラム学習で強化学習を進めるとうまくいく場合があるぞ。

ふむふむ。じゃあ学習したモデルを再利用しますね。8人の広い環境でゴールできるようになっているので、ボールにタッチするごとに与えていた報酬はゼロに戻しておきます。

～～～さらに数時間後～～～

学習結果2

オウンゴールしないよう回り込んでボールをとることができておる。じゃが、正面のキックのパワーを上げても、その影響がない背面で押しておるの～。

想定してた早いキックが見れませんね・・・。なんででしょう？

やはり、ボールに触れることで報酬を与えていたことが原因かの。キックで1回しかタッチしないより、押し続けたほうが報酬が沢山もらえるからの。

いろいろ試行錯誤がいるんですね。

いくつか対策はあるぞ。
・報酬をもっと小さくする。
・キックパワーが高いので初期段階でもゴールする可能性が高い→タッチするときの報酬を与えない
・正面でキックした場合のみ小さい報酬を与える
最初の学習で、タッチした場合に報酬を与えるとうまくいくことが分かっておる。そこで今回は3番目の方法を試してみるぞ。このように、報酬の与え方を考えることを報酬設計というのじゃ。

報酬の与え方ってたくさん考えられるんですね。報酬設計、大事です。

～～～更に1日後～～～

学習結果3

学習って、時間かかるんですね～。

そうじゃな。もっと沢山のマシンがあれば沢山報酬設計を試すことができるが、こういった試行錯誤も強化学習を楽しむポイントじゃ。失敗しても焦らず、なぜそうなったのかを見極めていくぞ。

了解です！じゃあ、早速学習の成果を見せてもらいましょう！

いいですね！しっかり正面(ナガメのお面がある方)でキックしてます！報酬設計って大事ですね～。

4人の配置も面白いの。相手ゴール付近に1人、自分のゴールを守るのに3人の構成になっておる。キックパワーが高いので、まっすぐ蹴られるとボールの速度が早くて少ない人数じゃと止められないから守りに人数を割いているのかもしれんの。

最初の頃と比べて、チーム全体で協力してゴールするような動きができてますね。私達は協力して！とか言ってないのに。強化学習って面白～い！

人数を増やしたことで面白い動きが見れたの。どうやって問題を解くかをAIに任せているので、人間側が想定してない、もしくはどうすべきかわからない環境でもうまく行動してくれるのじゃ。

おわりに

前の記事でも書いたが、問題設定とゴール(報酬)を適切に決めることが強化学習を成功させる重要なポイントじゃ。
サッカーは一つの例じゃが、世の中にはどちらが効率良いのかな？どうすると便利になるのかな？と言った問題がたくさんある。そういった問題に強化学習を使ってみると良いかもしれんの。もし身近に気になることがあったら、是非コメントで教えて欲しいのじゃ。それじゃあまたの～～。