ゲーム理論、GTO戦略、ナッシュ均衡、囚人のジレンマについて

YAMADA

2025年1月31日 15:56

ゲーム理論、GTO戦略、ナッシュ均衡、囚人のジレンマについて解説

1. ゲーム理論とは？

ゲーム理論（Game Theory）は、複数の意思決定者（プレイヤー）が関わる状況で、最適な戦略を分析する数学的手法です。
経済学、政治学、軍事戦略、ビジネス、心理学、ポーカーやチェスなどのゲームにも応用されます。

ゲーム理論では、以下の要素を考えます：

プレイヤー（意思決定を行う主体）
戦略（プレイヤーが選択できる行動）
利得（ペイオフ）（各プレイヤーの選択による得られる報酬や結果）

ゲームの種類

ゼロサムゲーム（一方の利益が他方の損失になる、例：ポーカー、チェス）
非ゼロサムゲーム（両者が協力することで双方に利益がある、例：レーキ）
協力ゲーム（プレイヤーが協力できる）
非協力ゲーム（各プレイヤーが独立して行動する）

2. GTO戦略とは？

GTO（Game Theory Optimal）戦略は、ゲーム理論に基づいた最適なプレイ戦略のことです。
特にポーカーや戦略ゲームで用いられ、相手の行動に対して搾取されにくい戦略を構築することが目的です。

GTO戦略の特徴

最適バランス戦略：ブラフ（ハッタリ）とバリューベット（強い手で勝負）を適切に混ぜる。
ナッシュ均衡に基づく：相手が最適にプレイしても損をしない戦略。
「Exploit（搾取）」されない：相手がどんな戦略でも対策ができる。
リスクを最小化：短期的には負けることがあっても、長期的に安定した利益を確保。

GTO vs Exploitative 戦略

GTO戦略：理論的に完璧だが、相手の弱点を突くことはしない。
Exploitative（搾取的）戦略：相手のミスを狙って攻めるが、逆にカウンターを食らうリスクがある。

ポーカーでは、強いプレイヤーほど GTO を基本としつつ、相手のミスに応じて Exploitative な戦略を組み合わせるのが一般的。

3. ナッシュ均衡とは？

ナッシュ均衡（Nash Equilibrium）は、「どのプレイヤーも、他のプレイヤーの戦略を知った上で、自分の戦略を変えても得をしない状態」 のことです。
すなわち、誰も一方的に戦略を変更するインセンティブがない安定した状態になります。

ナッシュ均衡の例

例えば、2人のプレイヤーが「A または B」の戦略を選ぶゲームを考えます。

プレイヤー1が「A」を選んだ場合、プレイヤー2の最適な選択も「A」。
プレイヤー2が「A」を選んだ場合、プレイヤー1の最適な選択も「A」。

このとき、（A, A）がナッシュ均衡 になります。

ナッシュ均衡のポイント

安定した戦略の組み合わせであるが、必ずしも最適な結果を生むとは限らない。
一人だけが戦略を変えても利益が得られない。
全てのゲームにナッシュ均衡が存在するとは限らない（ただし、混合戦略を考慮すれば必ず存在）。

4. 囚人のジレンマとは？（ゼロサム・非ゼロサムゲーム）

囚人のジレンマ（Prisoner's Dilemma）は、個人の合理的な選択が全体として非合理な結果を生む例です。

囚人のジレンマの設定

2人の囚人がいて、それぞれ独立して「黙秘する（協力する）」か「自白する（裏切る）」を選択できます。

お互いに黙秘（協力） すれば、軽い懲役（-1, -1）で済む。
片方が自白（裏切り）し、もう片方が黙秘（協力） すると、裏切った方は釈放（0）、黙秘した方は重い懲役（-3）。
お互いに自白（裏切り） すると、両者ともに中程度の懲役（-2, -2）。

囚人のジレンマのポイント

両者が自白（裏切る）をすると、それがナッシュ均衡であり、支配戦略均衡でもある。
しかし、もし両者が黙秘（協力）すればより良い結果（-1, -1）になるが、お互いに自分の利益を考えた結果、（-2, -2）という誰にとっても不利な結果になってしまう。このジレンマは「個人の利益の最大化が、全体の利益の最大化と一致しない」ことを示している。

囚人のジレンマは、企業の価格競争、軍事戦略、環境問題、社会契約 など、さまざまな分野で見られる現象です。

問題

プレイヤー1とプレイヤー2がともに「自白」する場合、これは均衡といえるか？なぜか？
プレイヤー1が常に「黙秘」、プレイヤー2が常に「自白」を選ぶ場合、これは均衡といえるか？

回答

1. 両者が「自白」する戦略はナッシュ均衡か？

→ これはナッシュ均衡である。

理由：

ナッシュ均衡とは？
→ 「どのプレイヤーも 自分だけ が戦略を変えても 有利にならない 状態のこと。」
今回の状況：
- プレイヤー1とプレイヤー2 どちらも「自白」 を選んでいる。
- ここで、プレイヤー1が 「黙秘」に変更 した場合、プレイヤー2は「自白」のままなので、プレイヤー1は より重い刑を受ける（不利になる）。
- 同じように、プレイヤー2が 「黙秘」に変更 しても、プレイヤー1が「自白」のままなら、プレイヤー2も 不利になる。

→ どちらのプレイヤーも、自分だけが戦略を変えると損するので、戦略を変えようとしない。つまり、これはナッシュ均衡である。

2. 片方が「黙秘」、もう片方が「自白」する戦略はナッシュ均衡か？

→ これはナッシュ均衡ではない。

理由：

今回の状況：
- プレイヤー1は「黙秘」、プレイヤー2は「自白」を選んでいる。
- このとき、プレイヤー1は 最も重い刑を受ける（不利）。
- もしプレイヤー1が「自白」に変えれば、刑が軽くなるので、プレイヤー1にとって 戦略を変えるメリットがある。
ナッシュ均衡の定義に当てはめると？
- プレイヤー2は「自白」のままが最適なので、戦略を変える必要はない。
- しかし、プレイヤー1は「黙秘」のままだと損をするので、戦略を変えようとする。

→ プレイヤー1が戦略を変えたほうが得をするなら、これはナッシュ均衡ではない。

まとめ

概念説明
ゲーム理論複数のプレイヤーが関わる状況での最適戦略を分析する数学的理論。
GTO戦略ゲーム理論に基づいた最適戦略。ポーカーなどで搾取されにくいプレイ。
ナッシュ均衡どのプレイヤーも戦略を変更するインセンティブがない状態。囚人のジレンマ個人の合理的な選択が全体の非合理な結果を生むゲーム。

これらの概念は、ビジネス、経済、戦略ゲーム、交渉、軍事など多くの分野で応用されます！