見出し画像

#58「ゲーム理論って聞いたことある?: 日常生活に使える行動決定理論(ゲーム理論#1)」

デデデータ!!〜“あきない”データの話〜第30回「ゲーム理論って聞いたことある?: 日常生活に使える行動決定理論」の台本・書き起こしをベースに、テキストのみで楽しめるようにnote用に再構成したものです。

ゲーム理論という考え方

ビジネスや交渉、あるいはスポーツや恋愛の場面などで、「相手がどう動くか」という読み合いはしばしば重要になる。ゲーム理論とは、そうした戦略的意思決定を分析するための数学的枠組みである。ここでいう「ゲーム」とは、トランプやボードゲームに限らず、「複数のプレイヤーが互いの行動を意識しながら意思決定を行うシチュエーション」を広く指す。

ゲーム理論では、まず以下の3つの要素を設定する。

  1. プレイヤー: 参加者(企業、個人、組織など)。

  2. 戦略: プレイヤーが取りうる行動のセット。

  3. ペイオフ(報酬や損失): プレイヤーがその戦略を選んだ結果として得る利得(またはコスト)。

世の中にはいろいろな「ゲーム」がある。競合企業同士がシェアを奪い合うのは、一種の非協力ゲーム(ゼロサム的な構造が強い)。一方で、企業と顧客がお互いにメリットを得る形態は協力ゲームとみることもできる。また、スマートフォンゲームやスポーツでも、相手の意図を読み合う駆け引きは欠かせない。こうした多様な状況を、ゲーム理論によってモデル化することで、合理的な意思決定や戦略の選択を行いやすくなるわけだ。


囚人のジレンマ――ナッシュ均衡の代表例

ゲーム理論で最も有名な例として「囚人のジレンマ」がある。この状況は1950年に数学者アルバート・タッカーによって定式化された。2人の囚人が別々に尋問されている場面を考える。各囚人の選択肢は「黙る(協力)」か「裏切る(非協力)」の2つだけだとする。

  • 両者が黙る: お互い2年の刑

  • 一方だけが裏切る: 裏切った側は0年、黙った側は10年

  • 両者が裏切る: 各5年

このとき、表面だけ見れば「両者が黙って2年ずつ」というのが一番ましな結果のように思える。しかし、両者とも「裏切ったほうが得をする」と考えてしまうと、結局「両者が裏切って5年ずつ」という状態に落ち着いてしまうのだ。お互いの最適選択を突き詰めると「裏切る」が支配戦略となり、結果的に両者が裏切りあう。これがナッシュ均衡と呼ばれる状態である。

ナッシュ均衡とは、アメリカの数学者ジョン・ナッシュが考案した概念で「ほかのプレイヤーの戦略が固定されているかぎり、誰も自分の戦略を変えようとしない状態」を指す。

囚人のジレンマでは、相手が黙ろうが裏切ろうが、自分にとって裏切るほうが有利になる。しかし、両者とも同じことを考えるため、結果的にお互いが裏切りを選んでしまう。ここに社会的なジレンマが生じる。


価格戦争と渋滞の例―ナッシュ均衡の実感

ナッシュ均衡は、ビジネスや社会問題など現実世界にも幅広く当てはまる。たとえば、競合他社との「価格戦争」。両社が価格を維持すれば双方が安定した利益を得られるのに、どちらかが「値下げしてシェアを奪取したい」と考えることで、その行動に対抗してもう一方も値下げし、最終的には両社の利益が薄くなる。これも典型的な非協力ゲームであり、ナッシュ均衡は「両社がともに値下げし続ける」結果になる。

もう一つ身近な例としては「交通渋滞」がある。本来、みんながラッシュを避けて時差出勤すれば渋滞は減るかもしれない。だが「自分は時間をずらしてもメリットが少ない」と考えて、結局ラッシュ時の大混雑に参戦する人が多いと、全体としては誰も得をしない。これもナッシュ均衡の一例といえる。


混合戦略均衡――じゃんけんや警察の取締り

ナッシュ均衡には「純粋戦略均衡」と「混合戦略均衡」がある。純粋戦略均衡は「どのプレイヤーも、ある決まった行動を取り続けることで均衡に到達する」場合だ。一方、混合戦略均衡は、プレイヤーが複数の行動を一定の確率でランダムに選ぶことで均衡が生じる。

じゃんけんの例

じゃんけんには「グー」「チョキ」「パー」の3つの手がある。もし相手が「グーしか出さない」とわかっていれば、「パーを出せば勝てる」となる。しかし、相手も読み合いをするので、結果的には「グー・チョキ・パーを三分の一ずつの確率で出す」という行動が両者にとっての混合戦略均衡になる。どちらも確率を変えたところで勝率は改善しないためだ。

警察の取り締まり

警察のスピード違反取締りでも、混合戦略が考えられる。もし警察が毎日同じ場所で取り締まるなら、ドライバーはそこだけ安全運転をして、他のエリアではスピードを出してしまうだろう。逆にドライバーが常に法定速度を守るなら、警察の取り締まり場所はどこであっても意味がない。現実には警察は場所Aと場所Bのどちらかにランダムで張り込み、ドライバーはスピードを出すか守るかをランダムに選ぶ。このランダム化こそが混合戦略であり、お互いに最適化を図った結果がナッシュ均衡として成立する。


反復囚人のジレンマと協力の進化

ここまでの話では、囚人のジレンマのような非協力ゲームでは、合理的に考えると最終的に「お互いに裏切る」というあまり望ましくない均衡に落ち着くことが多い。しかし、現実には「協力関係」を築くケースが少なくない。たとえば企業同士が価格競争を避けて共存したり、交通渋滞を緩和するために時差通勤の仕組みを導入したりする場合もある。なぜ「協力」が起こるのか。その鍵が、反復囚人のジレンマ長期的視点である。

アクセルロッドの実験

政治学者ロバート・アクセルロッドは、囚人のジレンマを繰り返し行うシミュレーションを通じて、長期的な協力関係がいかに生まれるかを研究した。その結果、最も優れた戦略として見いだされたのが「しっぺ返し戦略(Tit for Tat)」である。具体的なルールは次のようになる。

  1. 初回は協力(相手に好意的な行動)を選ぶ。

  2. 2回目以降は、相手が前回に選んだ行動をそのまま模倣する(相手が協力したら協力、裏切ったらこちらも裏切る)。

「しっぺ返し戦略」はシンプルながら、いくつかの美点を持つ。

  • 優しさ: 最初は協力するため、相手に協力のメリットを感じさせやすい。

  • 報復: 相手が裏切った場合には、すぐに同じく裏切りで応じるため、安易な裏切りを許さない。

  • 許し: 相手が再び協力に戻れば、自分もすぐ協力に復帰するので、長期的に関係を修復しやすい。

  • わかりやすさ: 戦略が単純なので、相手にとって読みやすく、合理的に考えれば協力が得策とわかりやすい。

アクセルロッドのトーナメント形式のコンピュータ実験では、しっぺ返し戦略がさまざまな複雑戦略を抑えて高い得点を叩き出した。これが「協力の進化」という考え方の大きなきっかけになったわけである。


ビジネスや社会での具体例――協力をどう維持するか

価格戦争の回避

企業間の価格競争を囚人のジレンマに当てはめると、単発のゲームなら「値下げ」という裏切りを選択してシェアを奪い合う結果、双方が疲弊する。しかし、これを繰り返しゲームとして捉える場合、しっぺ返し戦略のような協調行動が働く可能性がある。「もし相手が値下げするなら、こちらも対抗値下げをし、相手が再び元の価格に戻すなら、こちらも戻す」という取り決めだ。こうして暗黙の協力が維持されると、長期的には両社に利益が残る。

交通渋滞の緩和

交通渋滞も、一度だけのゲームではない。毎日の通勤時間帯が繰り返しになっているとすれば、自分が裏切ってラッシュ時に車を出せば、次回は周囲も同じく「ラッシュ出勤」を選んでさらに混雑が悪化するかもしれない。「混雑回避の取り組みに協力する人がいれば、自分も協力するし、裏切りが多ければ同じように裏切る」といった形でしっぺ返し戦略をとれば、徐々に協力行動が広がる可能性がある。

組織やチームビルディング

会社や学校などの組織内でも、個人が短期的な自己利益に走ると全体の生産性が損なわれる場合がある。たとえば、情報を独占して他人に教えない態度を取り続けると、周囲からも協力が得られなくなる。しかし、こちらが有益な情報を共有していれば、相手も「仕返しではなく情報共有で応えるかもしれない」と期待して、好循環が続く。反復囚人のジレンマという視点で見ると、組織内のルール作りや長期的なインセンティブ設計がいかに大切かが理解しやすい。


ナッシュ均衡から脱出するには

前述のように、一度きりの囚人のジレンマでは「協力しない(裏切る)」がナッシュ均衡として現れる。それを打破し、協力関係を築くにはどうすればいいか。すでに触れたように、一つの手段は「繰り返しゲーム」にすることだが、他にもいくつか方策がある。

  1. コミュニケーションの場を設ける
    囚人のジレンマでは、相手と話し合う手段がないまま決断を迫られる。しかし実際の交渉であれば、相手とのコミュニケーションを通じて「互いに協力したほうが得だ」という合意を形成できるかもしれない。企業間であれば、協定や契約の形で協力を明文化することも考えられる。

  2. 協力を促すインセンティブを設定する
    企業や組織の場合、裏切りよりも協力のほうが長期的に得になるような仕組みを作る。たとえば共同プロジェクトで「成果が出たら皆で分配する」とルールを作り、もし一方的に裏切ればペナルティを受けるようにする。このペナルティが大きければ、裏切るインセンティブが減る。

  3. 信頼を積み重ねる仕組み
    繰り返しゲームの要点は「過去の行動が評価され、次の行動に影響する」ことだ。信頼できる履歴や評価システムがあれば、裏切りを行った人は後に協力を得にくくなる。逆に協力的な行動を続ける人は、信用度が上がって意思決定の際に有利になる。

  4. 外部からの規制やルール設定
    市場全体で極端な価格戦争が起こってしまうと、誰も得をしない。このとき、業界全体で一定のガイドラインや規制を設けることも手段になる。独占禁止法との兼ね合いはあるが、適正な競争と協力のバランスを保つためのルールが役立つケースもある。


まとめ――ゲーム理論を使う意義

ゲーム理論は一見すると数学の教科書的な硬い印象を与えるが、その応用範囲は驚くほど広い。ビジネス交渉や企業戦略、公共政策、スポーツや日常生活の意思決定においても、相手の反応を考慮しながら最適な一手を導くフレームワークとして非常に役立つ。

  • 囚人のジレンマのような単発の非協力ゲームでは、合理的に考えれば裏切りが選ばれてしまう。しかし、社会や企業活動では長期的な付き合いが想定される場合が多い。

  • 反復囚人のジレンマのように繰り返しを意識すると、しっぺ返し戦略(Tit for Tat)が示すような協力の可能性が浮上する。

  • ナッシュ均衡は「誰も戦略を変えるインセンティブがなくなる状態」だが、必ずしも社会全体にとって望ましいわけではない。そこから抜け出すには、コミュニケーションや外部ルール、長期的視点やインセンティブ設計など、さまざまな工夫が必要となる。

たとえば仕事や取引の現場でも、「相手の出方が読めなかった」という場面で、実は自分自身がナッシュ均衡を誘発していたケースがあるかもしれない。「混合戦略」の視点で考えるなら、毎回同じ対応をしていると相手に読まれてしまうかもしれない。あるいは価格競争から抜け出したいのに、常に相手を疑い続けていては、不信の均衡を生み出すだけかもしれない。

さらに、警察の取り締まりやソーシャルメディアのコンテンツ検閲など、相手にランダムさを感じさせて予測困難にすること自体が戦略として機能する事例もある。サッカーのPKやじゃんけんでも、完全に相手に読まれてしまうと勝機は薄い。そこで混合戦略を導入して「お互いがランダムに動いているため、誰も戦略を変えても期待値が上がらない」という状況ができあがるわけだ。

一方で、協力が成り立つ場面では、長期的な「信頼関係の積み上げ」が重要になる。反復囚人のジレンマの研究は、「しっぺ返し戦略」という単純なルールが驚くほど大きな力を持つことを示した。大げさに言えば「最初は相手を信頼し、裏切られたら報復し、許す余地も残す」姿勢こそが、組織や社会の中で持続的な協力を育む鍵になりやすい。この考え方は、ビジネスパートナーやチームビルディングなど、あらゆる人間関係でも応用できるだろう。


おわりに

ゲーム理論は、競争と協力の両面を客観的に分析する枠組みを提供してくれる。人は合理的である一方で、不完全な情報や不確実な状況の中で動いている。そんな複雑な駆け引きをモデル化し、各プレイヤーがどのような行動を取るかを考察する道具がゲーム理論なのだ。

もちろん、すべての交渉や意思決定を「ゲーム理論」の枠にはめれば万事解決するわけではない。ただ、相手の視点を考慮しながら、「自分がこの行動を取ると、相手はどう出るのか」「その結果、自分にどんなメリット・デメリットが返ってくるのか」を論理的に構造化して考えられる点に、ゲーム理論の大きな価値がある。

現実世界では、短期的な利益と長期的な信頼関係のあいだで悩むことが多い。しかし、何度も続く関係性の中では、裏切りよりも協力のほうがトータルで大きな成果を生む可能性が高い。適切なルールやインセンティブ設計で「しっぺ返し戦略」が働きやすい土壌を整えるのも重要だ。そうした一連の行動設計を支えるためにも、ゲーム理論の視点を頭の片隅に置いておく意義は大きいといえる。

企業の交渉や組織内のコミュニケーション、日常生活のちょっとした読み合いまで、「ゲーム理論を意識してみる」と見える風景が変わるかもしれない。囚人のジレンマやナッシュ均衡、混合戦略、しっぺ返し戦略などを念頭に置くことで、合理的な読み合いを行いながら、より良い協力と合意形成を目指すことができるはずだ。


ゲーム理論リファレンスノート

ゲーム理論の基本概念から代表的な事例、ナッシュ均衡やしっぺ返し戦略などを総合的に整理したリファレンスノート。専門用語を平易に解説しつつ、数式を使わずに計算例や理論的背景を紹介する。


1. ゲーム理論の全体像

ゲーム理論とは

  • 定義: 戦略的意思決定を分析するための数学的枠組み。複数のプレイヤーが互いの行動を考慮して自分の最適行動を選ぶ状況をモデル化する。

  • 応用範囲: 経済・ビジネス・国際政治・スポーツ・恋愛など、人間の駆け引きがあるあらゆる場面で使われる。

基本要素

  1. プレイヤー: 意思決定を行う主体(企業、個人、国など)。

  2. 戦略: プレイヤーが取りうる行動のセット。例: 「値下げ」「値上げ」「そのまま維持」など。

  3. ペイオフ(報酬): 戦略の組み合わせによって得られる利益(あるいは損失)。お金、時間、刑期など、状況によってさまざま。

協力ゲームと非協力ゲーム

  • 協力ゲーム: プレイヤー同士が協力して共通利益を追求する。

  • 非協力ゲーム: プレイヤーがそれぞれの利益最大化を目指して、個別に戦略を選択する。ゲーム理論の代表的トピックとしては非協力ゲームが多い。


2. 囚人のジレンマ

囚人のジレンマとは

  • 1950年に数学者アルバート・タッカーが定式化した有名な思考実験。二人の囚人が別々に尋問され、「黙る(協力)」か「裏切る(非協力)」かを選ぶ。

  • 両者が協力しあえば比較的軽い刑期で済むが、どちらか一方が裏切ると一方的に得をする。結果的に「互いに疑って裏切りあう」という、当事者全体にとっては不利な結末に落ち着く。

ペイオフ例(数式なし)

  • 両者が黙る: 2年ずつ

  • 一方が裏切り、他方が黙る: 裏切った方は0年、黙った方は10年

  • 両者が裏切る: 5年ずつ

このケースでは、一見すると「両者が黙るほうが刑期2年でまし」だが、実際には「裏切ったほうが得」という考えが働き、お互いに裏切りを選択する(5年ずつ)。


3. ナッシュ均衡

定義

  • アメリカの数学者ジョン・ナッシュが提唱。プレイヤー全員が最適だと思う戦略を選択し合った結果、誰も戦略を変えようとしなくなる状態のこと。

特徴

  • 相互依存: お互いの行動を前提に、自分にとって最適な戦略が決まる。

  • 安定性: 一人だけ戦略を変えても得をしないため、均衡を崩す動機がない。

具体例

  • 囚人のジレンマで「両者が裏切る」はナッシュ均衡。

  • 価格競争で両社が値下げ合戦をやめられなくなる状態などもナッシュ均衡として説明できる。


4. 混合戦略均衡

混合戦略とは

  • プレイヤーが複数の戦略を決まった確率でランダムに選択する方針。

  • 相手に予測されないようにするために有効。

例: じゃんけん

  • グー・チョキ・パーを三分の一の確率で出す戦略は、どれかに偏らせるより安定して勝率を保つ。お互いが同じ考えでランダムに手を出すと「誰も勝率を上げられない」=混合戦略均衡が成立する。

例: 警察のスピード違反取り締まり

  • 警察: 場所Aか場所Bで取り締まりを行うのをランダムに決める。

  • ドライバー: スピードを出すか守るかをランダムに決める。

  • こうすることで、警察はドライバーの行動を予測しにくくし、ドライバーも確率的にしかリスクを読めない。


5. 囚人のジレンマからの脱出方法

繰り返しゲームと長期的視点

  • 一度きりの囚人のジレンマでは、両者とも裏切る結末に至る。しかし、これが何度も続く(反復される)と状況は変わる。

  • 長期的視点: 相手が裏切ったか、協力したかの記憶を持ち越し、その都度戦略を変化させることが可能になる。

しっぺ返し戦略(Tit for Tat)

  • ルール: 初回は協力し、以降は相手の前回の行動をコピーする。

  • 特徴:

    1. 最初は協力で「優しさ」を示す。

    2. 相手が裏切ったら次回は自分も裏切る(「報復」)。

    3. 相手が再び協力したら、自分も協力に戻る(「許し」)。

  • シンプルながら長期的に高い利得を得られる戦略として有名。

実例: 価格戦争の回避

  • 企業Aと企業Bが「互いに価格を維持する(協力)」からスタート。

  • どちらかが価格を下げれば、もう一方も次の期に報復として価格を下げる。

  • 一度裏切っても、また相手が価格を維持に戻せば許し、再び協力関係に戻る。

  • 長期的に見ると極端な価格競争を回避し、互いに収益を確保できる。


6. ビジネスと社会への応用

  1. 企業交渉・取引

    • 相手の戦略を予測しながら自分のベストを模索する。

    • ナッシュ均衡を意識することで、値下げ合戦や無益な争いに陥るリスクを理解しやすい。

  2. 公共政策(交通渋滞や汚染問題)

    • 個人の短期的利益(自分だけが車を使う、ルールを守らない)と社会全体の利益(渋滞や汚染緩和)とのせめぎ合い。

    • 規制やインセンティブ設計で「協力」を促進する。

  3. 組織内のチームビルディング

    • 情報共有やコラボレーションを進めることで、生産性を高める。

    • しっぺ返し戦略のように「信頼を裏切ったら報復される」仕組みが暗にあると、協力しやすくなる。


7. 計算方法(数式なし)

囚人のジレンマにおける期待値の直感計算

  • 自分が「黙る」場合: 相手次第で2年になるか10年になるか。どっちになるか分からないなら期待値はその中間くらい。

  • 自分が「裏切る」場合: 相手が裏切るなら5年、相手が黙るなら0年。こちらも平均するとその中間くらい。前者のほうがまだ刑期が少ない。

  • 結果、裏切るほうが期待値が低く抑えられそうなので、自然に裏切り戦略へ流れる。

価格戦争の軽い計算イメージ

  • 両社が「協力」して価格を維持: お互いに利益100万円ずつゲット。

  • 一方が裏切り(値下げ): 裏切った側は150万円、協力し続けた側は50万円。

  • 両者が裏切り(互いに値下げ): お互い利益80万円ずつ。

  • 長期的には、片方が裏切るともう一方も裏切りに転じ、双方の利益が下がる。


8. 専門用語解説

  • 支配戦略(Dominant Strategy): 相手の戦略に関係なく、常に自分にとって最適となる戦略。囚人のジレンマで「裏切り」は支配戦略。

  • ナッシュ均衡(Nash Equilibrium): どのプレイヤーも戦略を変えるインセンティブがない状態。

  • パレート最適(Pareto Optimal): あるプレイヤーが得をしようとすると、別のプレイヤーが損をするため、これ以上改善しようがない状態。囚人のジレンマでは、パレート最適は「両者が黙る」だが、ナッシュ均衡とのずれが起きる例でもある。

  • ゼロサムゲーム(Zero-Sum Game): プレイヤー間で利益の総和が一定のゲーム。誰かが得をすると、その分ほかが損をする。

  • 非ゼロサムゲーム(Non-Zero-Sum Game): 利益の総和が一定ではなく、協力次第で全員のパイを大きくできる可能性がある。


9. ナッシュ均衡からの脱出・協力の鍵

  • 長期的視点: 反復囚人のジレンマの導入で、短期的裏切りよりも長期的協力が得になる。

  • コミュニケーション: 話し合いやルール化によって相互理解を深める。

  • インセンティブ設計: 裏切りにペナルティがある、協力にリターンが大きいと、協力が安定しやすい。

  • しっぺ返し戦略の有効性: 優しさ・報復・許し・シンプルさが持続的な協力関係をつくる。


10. まとめ

  • ゲーム理論は、現実の交渉や企業戦略、社会問題などで生じる「相手の出方を読む駆け引き」を分析する強力なツール。

  • ナッシュ均衡は、一見すると合理的な行動の積み重ねが社会的に望ましくない結果を生む「ジレンマ」を示す。

  • しかし、繰り返しゲームやしっぺ返し戦略などの概念を活用することで、協力が生まれるメカニズムを理解できる。

  • 長期的視点やインセンティブの設定によって、非協力的な均衡から協力関係を築くことが可能になる。




いいなと思ったら応援しよう!