スパコンで探す繰り返し囚人のジレンマの最強戦略その3

2024年11月28日 21:17

最近、私はゲーム理論（および進化ゲーム理論）の問題をスパコンを使って研究を行っている。特に協力行動の進化というテーマに興味を持っていて、人々がなぜ自分がコストを払ってまで他人を助けるのかについて研究している。協力の進化は理論的枠組みとして「ゲーム理論（進化ゲーム理論）」を用いて研究されることが多いのだが、この分野でスパコンを用いる計算科学的なアプローチはほとんど未開拓で、我々が事実上唯一のグループであると言っても良いだろう。

この一連の記事では、私がここ数年行ってきた「繰り返し囚人のジレンマ」（およびその拡張「繰り返し公共財ゲーム」）についての一連の研究について、論文には載っていない研究のウラ話まで含めて紹介していきたい。（第１回の記事はこちら、第２回の記事は[こちら](https://note.com/yohm13/n/nebee4988957d)
この第３回の記事で、繰り返し囚人のジレンマの話題は最終回である。以下の二つの論文の内容を取り上げる。この記事を通して、このような研究に興味を持ち、あわよくば一緒にこの分野を開拓してくれる人が現れてくれれば幸いである。

Yohsuke Murase, Seung Ki Baek "Grouping promotes both partnership and rivalry with long memory in direct reciprocity" PLoS Comp. Biol. 19(6): e1011228 (2023)
Yohsuke Murase, Christian Hilbe, Seung Ki Baek "Evolution of direct reciprocity in group-structured populations" Scientific Reports, 12, 18645 (2022)

前回までのまとめ

さて、前２回の記事においても述べたが、繰り返し囚人のジレンマおよび繰り返し公共財ゲームにおいて、強力な戦略は「ライバル」あるいは「パートナー」のクラスのどちらかに分類される。
そして、我々はその両方のいいとこ取りをした「友好的ライバル（friendly rival, FR）」というクラスの戦略が実際に存在することを発見し、その性質について研究をしてきた。

FR戦略はこれまで提案されてきた戦略の短所のほとんどを克服し、長所だけを併せ持っているほぼ理想的な戦略である。さまざまなFR戦略が存在し、その多くは複雑な振る舞いを示すのだが、中には直観的にも自然な振る舞いを示すものもある。前回紹介した「CAPRI」はそのような自然に見えるFR戦略の一つである。もしかしたら、人間も進化の過程における自然選択の結果として、CAPRIのように振る舞う行動を獲得してきたのかもしれない。FR戦略は理論的に優れた性質を持っているが、自然淘汰の中で選択されて結果として現れてくるのだろうか？

ここで紹介する研究では、「FR戦略は自然選択によって進化するのか？」という問いを考える。

戦略の進化

前回までに紹介した研究では、ある記憶長の戦略を網羅的に探索し、「パートナー」かつ「ライバル」の条件を同時に満たすものを見つけ出した。

一方で、自然選択の過程では、全く異なる形で試行錯誤的に戦略が選ばれる。「ある戦略を持つ個体が高い利得を得ることができれば、その戦略を持つ個体がより多く次の世代に子孫を残す」という自然な仮定をおいて、次のような数理モデルを考えよう。

$${N}$$人からなる集団を考える。

集団の中で、ゲームを互いに行って利得を獲得し、利得の高いものがより高い確率で次世代に子孫を増やすことができるとする。これによって成功した戦略はより繁栄し、下手な戦略は淘汰されるという「戦略の生存競争」が起きる。また、まれに「突然変異」でランダムに新しい戦略を持つ個体が生まれてくるとしよう。

このような過程を何度も何度も繰り返し、最後にどのような戦略が進化するかを見てみよう。

（ちなみに、ここでは「次世代に子孫を残す」という過程を考えるが、数理モデル上は「それぞれの人々がうまくいっている戦略を真似する」と考えても等価である。このような数理モデルを用いて、人間を含むさまざまな動植物の振る舞いを研究する理論を進化ゲーム理論という。）

記憶長１の戦略のみの場合の進化

このような進化ゲームはすでに多くの研究が行われている。戦略として記憶長１の戦略が現れるような条件でどのような進化をするかをみてみよう。

記憶長が１の戦略というのは、直前の履歴のみに依存して行動を変える戦略である。しっぺ返し(Tit-for-Tat, TFT) やWin-Stay-Lose-Shift (WSLS) という有名な戦略はこのクラスに含まれる。

この結果はよく知られていて、環境条件、すなわち、集団のサイズ $${N}$$ や協力で得られるベネフィット $${b}$$ の大きさに依存して変わる。
集団サイズ $${N}$$ と協力で得られるベネフィット $${b}$$ が十分大きい時には、時間とともに WSLS が支配的になり、最終的に集団内で協力が安定して維持されることになる。一方で、 $${N}$$ または $${b}$$ が小さい時には、ALLD (常に裏切り)戦略が生き残り、協力は進化しないことにある。

戦略の記憶長が１の場合の進化。横軸が協力の利益 $${b}$$ 縦軸が、パートナー、ライバル、その他の戦略の頻度。$${b}$$ が小さい時はライバルが支配的、$${b}$$が十分に大きいとパートナーが支配的になる。

一般的に、$${N}$$ と $${b}$$ が両方十分に大きい時にパートナー戦略（例えばWSLS）が進化し協力が進化する。それ以外のときにはライバル戦略（例えばALLD）が選択され、結果として協力行動を取る個体は生き残らないことがよく知られている。

CAPRIを記憶長１の集団に導入してみる

では、この集団にFR戦略の一つであるCAPRIを導入してみよう。突然変異が起きる時に確率1%でCAPRIが現れるとしよう。残りの99%では、これまで通り記憶長１の戦略がランダムに現れる。

シミュレーションしてみると結果は以下のようになる。先ほどの図と比べてみると一目瞭然だが、CAPRIが圧倒的に多く存在し、従来の記憶長１の戦略（たとえばWSLSとかALLDとか）を圧倒している。進化の過程でも、FR戦略はとても強いことがこの図からよくわかる。

突然変異でCAPRIが現れるようにした場合のシミュレーション結果。どのパラメータ領域でもCAPRIが支配的になる。既存の記憶長１の戦略はパートナーであろうが、ライバルであろうがごく少数しか存在しない。

長い記憶長も含めればFRは進化する？

このようにFR戦略は、従来の戦略に比べて圧倒的に進化において有利である。であれば自然選択の結果として自然にFR戦略が出てきそうである。

しかし、実はもう少し事情は複雑である。先ほどは、CAPRIが突然変異で1%の確率で出るとした。しかし、FR戦略が全戦略に占める割合はとても小さいのである。前回の記事でも述べたが、記憶長が3の全戦略は $${2^{64} \approx 10^{19}}$$通りという莫大な数が存在するが、そのうちFR戦略のになるものの割合は、$${0.00004 \%}$$ という極めて小さい割合しか存在しない。
それくらい、FR戦略はレアなのである。自然選択によってこのような希少な戦略が本当に見つかるかのだろうか。

実際に長い記憶長（記憶長３）の戦略が均等に出てくる状況を仮定してシミュレーションしてみると下の図のようになる。
結果は、$${N}$$や$${b}$$によって変わり、記憶長１の場合とほとんど同じで、$${N}$$と$${b}$$が十分におきい場合にはパートナー戦略が生き残り、協力が進化する。他の場合は、ライバル戦略が生き残り、協力率は低くなる。

記憶長３の戦略がすべて現れるようにした場合の進化の結果。横軸に集団サイズN、縦軸に協力確率をプロットしている。bとNが大きい場合のみ協力が進化している。FR戦略はほとんど生き残っていない。

つまり、単純に記憶長が長い戦略が突然変異によって現れるようにするだけではFR戦略は進化しないのである。もしFR戦略が現れれば従来の戦略よりも有利であるが、そもそもFR戦略が突然変異で現れる確率があまりにも低いのである。FR戦略は従来の戦略に比べて優れてはいるが、この希少さを埋め合わせるほどの有利さはないということである。

集団がグループ構造を持つ場合にFRが進化する

このように単純に記憶長の長い戦略を加えた進化を考えるとFR戦略が自然に現れることはないことがわかった。

しかし、しかし、、、実はさらに状況は複雑である。上記の結果は、大きな集団内ですべての人が、他の全ての人と均一に繰り返しゲームをすることを仮定していた。これは進化ゲーム理論でよく使われる最も単純なモデルなのだが、人々が集団内ですべての人と「繰り返し」ゲームをするというのはちょっと考えづらい。繰り返しゲームをするということは、その人と何度も何度も出会うということだが、そのような濃い関係は比較的少数の人としか作ることはできないだろう。

というわけで、より現実的な仮定としてグループ化された集団を考えてみよう。下の図のように集団全体が小さなグループに分割されていて、グループ内だけで繰り返しゲームをする。そして、各個体が次世代に子孫を残す際には基本的に同じグループ内に子孫が生まれるが、まれにグループをまたいで戦略が「伝播」するとしよう。（これは「他のグループのうまくいっている戦略を真似る」と解釈しても良い。数学的に等価である。）

グループ化された集団での進化ゲーム。基本的には各グループが独立に進化していくが、たまにグループをまたいで戦略が広がっていくとする

このようなグループ化された集団を考えると結果が全く異なってくる。下の図は進化の時間発展を表した図である。青、オレンジ、緑の線がパートナー、ライバル、FRが占める比率をそれぞれ示している。進化の初期にはパートナーとライバルが競り合っているが、一定程度時が経過するとFRが現れ、それ以降はほとんどFRが支配的になっていることがわかるだろう。つまり、「ランダムな突然変異」と「自然選択」の結果として、自然にFR戦略が進化していくのである。

グループ化された集団での戦略の進化。一定程度時間が経過すると、FR戦略が集団の中で支配的になる。

なぜFR戦略がグループ化された集団では進化するのかも説明しておこう。グループ化された集団内で戦略が生き残るためには、２種類の自然選択に対して生き残る必要がある。一つは各グループ内での競争、もう一つはグループ間での競争である。グループ内で生き残るためには、相手を蹴落としてでも勝ち残る必要があるのでライバル的な性質が求められる。一方で、グループ間の競争では、所属するグループが成功していなければならないので、お互いに協力する必要がある。つまりパートナー的性質が求められる。FR戦略はこのようにグループ内外のどちらの競争においても優れているので、成功することができるのである！

まとめ

というわけで、ちょっと複雑になってきたが、結論としてFR戦略は理論的に優れているというだけでなく、進化の結果として自然に現れるということがわかった。前２回の記事で紹介したように、最初はスパコンを用いて網羅的に条件を満たす戦略を探索することによって、FR戦略を見つけだした。しかし、ここで見つかった戦略は人為的に見つかった机上の空論というわけでなく、自然選択の過程からも現れうるのである。

今後の研究課題として興味深いのは、現実の人を対象にした行動実験だ。たとえば、みなさんも経験があると思うが、人間は相手に対して負けることが嫌いである。自分の利得の絶対値が下がったとしても相手に勝たせない、というような振る舞いは、たとえば最後通牒ゲームを使った実験でもよく見られる。そのようなバイアスは不公平忌避バイアスと言われるが、そのような性質はライバル戦略が持っている。

一方で、人間は直接互恵によって協力を維持することができる。パートナー戦略のように、ちょっとしたノイズに対しては頑健であるようにも見える。そう考えると人間の振る舞いは友好的ライバルっぽくないであろうか？

例えば、CAPRIのような戦略を人間と繰り返しゲームをさせた時にどうなるか、非常に興味深い問題である。また、人間が使っている戦略の記憶長はどれくらいなのかも重要な問題だろう。今後の研究の発展が期待される分野である。

スパコンで探す繰り返し囚人のジレンマの最強戦略 その3