![見出し画像](https://assets.st-note.com/production/uploads/images/170858372/rectangle_large_type_2_519abeb6fd8319818878a2b1a38956f4.jpeg?width=1200)
イラストで学ぶ人工知能概論を再度勉強する 第4章 ゲームの理論
はじめに
とある理由で
「二重文節構造」のアイデアに触れた時から大ファンになった
谷口忠大先生の名著「イラストで学ぶ人工知能概論」を
じっくり勉強しなおしたくなって
改訂第2版を購入しなおした。
本noteは、その備忘録
ホイールダック2号は、自分の情報に応じて対応を変えてくる敵や罠を回避しながら、最短経路でゴールに向かう(宝箱を探す必要はない)
第4章 ゲームの理論
講義スライドと谷口忠大先生本人の講義動画が
谷口忠大先生から提供されています
4.1 利得と回避行動
ホイールダック2号と敵の利得を設定し、
利得の総和を最大化する問題を考える
ホイールダック2号と敵の利得
敵にぶつかる:ホイールダック2号:Cホ(マイナス);敵:C 敵(プラス)
罠にはまる:ホイールダック2号:Dホ(マイナス);敵:D敵(マイナス)
と仮定する。
![](https://assets.st-note.com/img/1738548844-64Y3zhTcWNEL5G28bgeoiZsn.png)
ホイールダック2号と敵が交互に移動すると仮定して、
2人以上の行動の可能性を順次展開して作成する木構造をゲーム木と呼ぶ。
![](https://assets.st-note.com/img/1738549985-4P1G03sDkaOwqVtCc8iuQ2rh.png?width=1200)
ゲーム木の節点における利得を表した行列を利得行列と呼ぶ
利得の与え方により、最大利得となる行動が変化する。
4.2 標準型ゲーム
全員の行動が決まって初めて各プレイヤーの利得が決定する
・支配戦略均衡 相手の行動に関係なく最適な行動が決まる
・ナッシュ均衡 全員が最適行動取った時の均衡
・囚人のジレンマ ナッシュ均衡が全体の利得最適にならない場合
・ゼロサムゲーム 全員の利得の輪がゼロのゲーム
・ミニマックス戦略とマックスミニ戦略が至る状態が一致する際、実現される状態はナッシュ均衡
4.3 展開型ゲーム
多段階の意思決定ゲーム(ゼロサムゲームのみ考える)
・ミニマックス法
ゲーム木の末端から評価値を決定していくと、最善行動が決まる
・アルファベータ法
選択される可能性のない枝をカットする手法
4.4 ゲームAIの実践的開発に向けて
・モンテカルロ木探索 ランダムに手を選択し、終局まで進める
これを繰り返し、勝率の高い行動を選択する
・評価値の推定 機械学習を活用して途中の局面の評価値を推定する
・模倣学習 蓄積されたデータから評価値を推定する
本章の最重要ポイント
こちらの行動で行動を変える相手がいる状況で
ホイールダック2号が最適経路を選択する問題は
ゲーム理論に定式化できる
おわりに
いよいよ面白くなってきた
いいなと思ったら応援しよう!
![YANO Tomoaki@](https://assets.st-note.com/production/uploads/images/84738312/profile_37cc1a37d916d70ec7be7c0d8c03a00e.jpg?width=600&crop=1:1,smart)