見出し画像

ゲーム理論の教科書1(Hawk-Dove Game)

はじめまして、ポーカーで生計を立てている大学生のcryといいます。

学部でゲーム理論を専攻していて、戦略を磨きながら、実践を重ねる日々を送っています。

このnoteでは、普段なんとなくゲーム理論やGTOwizardを活用しているポーカープレイヤーの皆さんが、論理的にゲーム理論を理解し、ゼロサムゲームにおけるナッシュ均衡や「indifferent」という概念を数学的に整理し、自分の言葉で説明できるようになることを目指します。

また、記事の後半ではexploitを考慮したmodelを用意し、より内容を掘り下げていきます。

このnoteを読み終える頃には、読者さんご自身でmodelを再現できるようになることを目指しています。ぜひ、紙とペンを用意して、一緒に学んでいきましょう。

前半だけでも楽しめる内容になっていると思うので、気軽に読み進めていただければ幸いです。


ゲーム理論とは

ゲーム理論とは「相手の行動を考えながら、自分の最適な行動を決める方法」を研究する学問です。

例えば、じゃんけんで絶対に相手がグーを出すと分かっていたら、自分はパーを出すのが最善ですよね?
こうした 「相手も考えて動く」状況での最適な戦略 を分析するのがゲーム理論です。
ナッシュ均衡を学ぶ上で避けて通ることはできません。

Hawk-Dove Game

とある山にタカとハトが暮らしていました。

ハトは争いを好まない平和主義で、穏やかな性格をしています。
一方、タカは利益のためなら積極的に争いをおこなう強奪主義でした。

そんな2匹は、同じ獲物をエサにしており、時には同時に見つけてしまうこともありました。

それでは、次の問いを考えてみましょう。
この山において、タカとハトのどちらが生存においてより有利だと思われるでしょうか?

タカとハトの戦略

このゲームでは、2人のプレイヤーが2匹が「タカ(Hawk)」または「ハト(Dove)」の戦略を2つ選択し、合計4羽を総当りで争います。

タカ(Hawk): 攻撃的な戦略を取り、相手が退けば勝利するが、相手もタカだった場合は戦いになり、負傷(コスト)が発生する。

ハト(Dove): 温和な戦略を取り、戦いを避ける。相手がハトなら資源を分け合うが、相手がタカなら報酬は少ない。

ゲームの結果

・タカ vs. タカ → 両者が争い、大きなコストを支払う(負傷する)。

・タカ vs. ハト → タカが勝ち、ハトは多くを得られない。

ハト vs. ハト → 両者が資源を分け合い、平和的に共存する。

ポイント
・全員がタカになると、争いのコストが高くなり、全体の利益が下がる。

・全員がハトになると、資源を分け合うが、タカが出てきた場合にすぐ負けてしまう。

・混合戦略(タカとハトが一定の割合で存在する状態)が最適なバランスを生むことが多い。

 

Strategy and Payoffs

この二つの戦略が組み合わさることで、ゲーム理論ではどの戦略が最適かを分析します。もし両者がタカ戦略を取ると、双方がリスクを負い、コストがかかるため、最適とは言えません。一方、タカとハトが組み合わさる場合、タカが有利になりますが、ハトはコストを抑えることができます。

つまり、この問題は、競争と協力のバランスを探る上での重要な理論的モデルであり、生物の行動や社会的な戦略にも応用されています。

期待値を計算してみましょう。

報酬設定
・ タカ vs タカ は両者とも強硬に出るため、大きな損失を受ける。
報酬は -3。

・ タカ vs ハト はタカが勝ち、ハトは譲歩する。タカに利益が出るが、ハトにも報酬を与える。
報酬は タカ +3, ハト +1。

・ ハト vs ハト は両者が平和的に対処し、争いがないため報酬なし。

1. タカだけの場合

全員がタカを選んだ場合、すべてのプレイヤーはタカ同士の対戦になる。

・ タカ vs タカ は各対戦の報酬が -3。
6組のタカ同士の対戦が行われる。

 計算
 タカ同士の対戦 6組× (-3) = -18

 結果
 全員がタカを選んだ場合、全員の報酬は -18。

2. ハトだけの場合

全員がハトを選んだ場合、すべてのプレイヤーはハト同士の対戦になる。

・ ハト vs ハト は両者は争わないので、報酬はなし。

 計算
 ハト同士の対戦 6組 × 0 = 0

 結果
 全員がハトを選んだ場合、全員の報酬は 0。

3. タカとハトが混ざった場合(2人がタカ、2人がハト)

タカとハトが混ざった場合、対戦結果は次のように進行する。

・ タカ vs タカ は 1組のタカ同士の対戦が行われ、報酬は -3。
・ タカ vs ハト は 4組のタカとハトの対戦が行われ、タカには +3、ハトには +1 の報酬が与えられる。
・ ハト vs ハト は 1組のハト同士の対戦が行わる。

 計算
 ・ タカ vs タカ 1組 × (-3) = -3
 ・ タカ vs ハト
  ▶︎4組 × (+3) = +12 (タカの報酬)
  ▶︎4組 × (+1) = +4 (ハトの報酬)

 タカを選んだプレイヤーの総得点
 ・ タカ同士で -3
 ・ タカ vs ハト の対戦で +3 を4回(+12)
 合計 -3 + 12 = +9

 ハトを選んだプレイヤーの総得点
 ・ タカ vs ハト の対戦で +1 を4回(+4)
 合計 4 

 結果
タカを選んだプレイヤーもハトを選んだプレイヤーも、最終的に報酬を得ることになる。

4. タカを選びすぎると損をする理由(3人がタカ、1人がハト)

タカ同士の対戦が増えると損失が増える。
例えば、タカが3人の場合、タカ同士の対戦が
3 組発生し、それぞれが-3の損失を受ける。
その結果、タカを選びすぎると、総損失が大きくなり、最終的な報酬が減少することになる。

 計算
 ・ タカ vs タカ 3組 × (-3) = -9
 ・ タカ vs ハト
  ▶︎3組 × (+3) = +9(タカの報酬)
  ▶︎3組 × (+1) = +3
 ・ ハト vs ハト 0組 (ハト同士がいない)

 タカを選んだプレイヤーの総得点
 -9 + 9 = 0

 ハトを選んだプレイヤーの総得点
 +3(タカ vs ハト の対戦で)
 合計 +3

 結果
タカを多く選んだ場合報酬が得られず、ハトを選んだ1人は +3 の報酬を得る。

5. ハトを選びすぎると損をする理由(1人がタカ、3人がハト)

ハトを選ぶことで自分の報酬が安定するかもしれないが、タカを選んだプレイヤーがいれば、その分タカに有利な状況が生まれ、報酬が相対的に減ってしまう。

 計算
 ・ タカ vs タカ 0組 (タカ同士がいない)
 ・ タカ vs ハト
  ▶︎3組 × (+3) = +9 (タカの報酬)
  ▶︎3組 × (+1) = +3 (ハトの報酬)
 ・ ハト vs ハト 1組

 タカを選んだプレイヤーの総得点
  +9(タカ vs ハト の対戦で)
 合計 +9

 ハトを選んだプレイヤーの総得点
 +3(タカ vs ハト の対戦で)
 合計 +3

 結論
タカが多く選ばれると、タカ同士の対戦が増え、損失が大きくなり、最終的な報酬が減少します。
一方で、ハトを選んだプレイヤーは損失を避け、安定した報酬を得ることができます。

このように、タカを選ぶプレイヤーが多すぎると全体で損をする結果になることが分かりやすく伝わると思います。

タカとハトを満遍なく選択する事によって、お互いに最大の利益を得ることになります。

Dive into the poker

タカを選んだ方が報酬を多く獲得出来ると考察した人も多いのでは無いでしょうか?
しかし、大きなリスクを背負った状態では、安定して報酬を得ることができませんでした。

まず、両者が協力的な選択をした場合、それぞれが一定の利益を得られる状態が最適です。

しかし、もし一方が自分だけの利益を追求し均衡からはずれた場合、今回のmodelでは損をする結果になり、両者ともに損失を受けるため、最適とは言えません。

このように、どちらかが自分の利益だけを追求して均衡から外れた選択を行うと、最適な結果を得られないことがわかります。

これをナッシュ均衡といいます。

ポーカーにおけるナッシュ均衡とタカとハトの戦略を絡めて話すと、似たような理論が適用されます。

ポーカーでは、プレイヤーが最適な戦略を選ぶとき、相手の行動を予測して自分の戦略を調整する必要があります。ナッシュ均衡において、すべてのプレイヤーが自分の戦略を最適に選んでいる状態では、どのプレイヤーも戦略を変更することが利益に繋がりません。つまり、ポーカーでも他のプレイヤーの戦略に基づいて自分の戦略を調整することで、最も効率的に利益を得ることができるのです。

例えば、タカとハトの戦略における「タカ(攻撃的)」に相当する行動は、ポーカーでいうところの「ブラフ」や「オールイン」のような攻撃的なプレイです。もし一人のプレイヤーがブラフを頻繁に仕掛けすぎると、他のプレイヤーはその戦略を読んで反応し、最終的にそのプレイヤーは損をすることになります。逆に、全くブラフをしない「ハト」のようなプレイも、ポーカーでは相手に読みやすくなり、他のプレイヤーに利益を与えてしまうことになります。

ナッシュ均衡に従えば、ポーカーでは「タカ」と「ハト」のような戦略のバランスを取り、攻撃と防御のタイミングを適切に調整することが求められます。もしどちらか一方が極端な選択をし続けると、相手にその戦略を見透かされ、最適な反応をされて損をする結果になります。

これをポーカーにおけるナッシュ均衡の観点で見ると、どのプレイヤーも自分の戦略を最適に選んでいる状態では、相手がその戦略に反応しても利益を得られず、結果的にそれぞれが損をせずにバランスが保たれるのです。この状態が、ゲーム理論におけるナッシュ均衡なのです。

最後に

ここまでお読みいただき、誠にありがとうございます。
今回は「タカvsタカ」の罰を小さく設定したため、どちらのプレイヤーも常に最善の選択をしていくというモデルを採用しました。このアプローチでは、選択肢が明確で、どの局面でも一貫した戦略が取れるため、理論的な流れを追いやすくなります。

次回の『ゲーム理論の教科書2』では、いよいよ
【囚人のジレンマ】について触れる予定です。お互いに協力すれば理想的な結果が得られるにもかかわらず、どちらかが裏切ることで一時的に大きな利益を得るという状況。例えば、ある時期の「友達同士が何でも分かち合う」ような理想的な関係が一瞬で崩れ、裏切りがもたらす意外な利益を目の当たりにする場面が思い浮かびます。これがまさに、ゲーム理論が描く「人間の心理」の一面です。

そして、次回は単なる理論だけでは終わりません。あなたがもし、何気ない日常の選択でも「損か得か」を考えたことがあるなら、囚人のジレンマを知ったときに驚きの発見が待っています。ひょっとしたら、あなたが知らないうちに毎日囚人のジレンマのゲームをプレイしているかもしれません。次回の解説が、ゲーム理論の世界への扉を開くきっかけとなるかもしれません。お楽しみに!


初めてのnote執筆となりますので、もしかしたら読みづらい部分や、説明がわかりにくい点もあったかもしれません。もし何か気になる点や補足してほしい部分があれば、ぜひご指摘ください。質問も大歓迎です!

少しでも良いと思っていただけたら、ぜひ「いいね」をいただけると嬉しいです。私のモチベーションにもつながりますので、よろしくお願いします。

それでは、また次回お会いしましょう!
king never cry


いいなと思ったら応援しよう!