択ゲーのキホン!2×2問題をゲーム理論で考える 考察編
こんにちわ。ここのところ書きたいことが貯まっていて嬉しい悲鳴なぴらんです。
前回、最も基本的な択として2×2の択について計算しました。計算こそきれいに終わっていましたが、計算結果の考察部分が今一つぱっとしないまま早1か月・・・。ようやくすっきりする見方が降りてきてくれたのでついに続編作成です!!
ゲーム理論的な計算自体は前回で終わっているので、今回は具体例を多めに交えつつ計算結果の解釈を考えていきたいです。
問題設定
2×2の択を考えます。自分と相手のそれぞれの選択肢に対して次のように勝率$${a,b,c,d}$$が設定されているような状況を考えます。
$$
\begin{pmatrix}
a & c \\
b & d
\end{pmatrix}
$$
いきなり行列書かれてもなんのこっちゃになる可能性があるので例を一つ考えます。
具体例:不意打ち交代択
例えば先発パオVSフルアタブーエナカミ、普通に打ち合ってパオ側襷発動&カミ側不意打ち圏内になった不意打ちVS交代の択を考えます。カミ側は裏に神速カイリューいて交代が通ればパオを倒せるような想定とします。
不意打ちVS居座りでは不意で一方的に落としてパオ側微有利でその後試合展開次第で勝率60%くらいになるとします。
不意打ちVS交代では無償の交換を許してカミを温存されるので、ブーエナ切れるとはいえパオ側微不利です。パオ側の勝率40%くらいとします。
つららVS居座りでは上から叩かれてパオが落とされます。ブーエナも切れないのでよりパオ側の不利が濃く勝率30%くらいとします。
つららVS交代ではパオを縛れるカイリューが吹っ飛んでカミもブーエナ切れてで大事故です。パオ側ほぼ勝ちで勝率90%くらいはあることにします。
みたいな状況をまとめて次のような行列で表したのが今回の問題だと思ってください。
$$
\begin{pmatrix}60\%&40\% \\30\%&90\%\end{pmatrix}
$$
このように択毎にリスクリターンの大きさに差を付けた2×2問題を扱います。
さて、このような状況で「不意打ちとつららどっちを押すの?」みたいな議論がよくなされます。が、今回は選択の仕方ではなく、abcdをどう設計するかの方に焦点を当てたいと思います。
例えば上記の例で、裏の神速要員がカイリューではなくエンテイやウインディなど違うポケモンならつらら対交換の選択に対するリスクは大きく減じるでしょう。
つまり裏のポケモンや持ち物等を変える事で上記の確率を調整することができます。abcdどれに対応する部分の勝率を高めていくのが効率良いのかというのが今回のテーマになります。
このようなを問題意識を持った上で前回の記事を振り返ります。
前回のまとめ
$$
\begin{pmatrix}
a&c\\
b&d
\end{pmatrix}
$$
問題設定でも述べたような行列で表せる2×2択ゲームについて、均衡時の勝率Pや択の選び方を求めるというのが前回やったことでした。結果のまとめは以下のようになります。
$$
勝率:P=\frac{ad-bc}{a+d-b-c}\\
手の出し方:d-b対a-c
$$
例えば前述の不意打ち交代択だと勝率は次のように表せます。
$$
\begin{pmatrix}
60 & 40\\
30 & 90
\end{pmatrix}\\
P=\frac{60\times90-30\times40}{60+90-30-40}=52\%
$$
前回の問題点
前回は数式まで出したものの変数が多すぎて、どこを高めるのが強いのかわからないまま終わってしまいました。
不意打ち読み交代決めた時のリターンが大きいポケモンのがいいのか、読み外した時のリスクを抑えるのがいいのか、それとも無難に居座った時のリスクリターンを改善するのが効率的なのか、この辺りを理解できるととても素敵なのですが、前回の数式からこれを読み解くのはかなり困難でした。
今回は勝率$${P}$$の微分を比較することにより、どの部分を伸ばすのが効率よいかを考察します。
計算
微分とは
総合的な勝率$${P}$$と特定の択の組の勝率$${a}$$の関係を考えたい時に微分を比較するのが便利です。微分$${\frac{dP}{da}}$$の意味合いは$${a}$$を一定量増やした時に$${P}$$がどれだけ増えるかという量になります。したがって$${abcd}$$で微分して比を取ればそれらのうちどれを伸ばせば伸ばしやすいかを考察することができます。
微分による評価
勝率$${P=\frac{ad-bc}{a+d-b-c}}$$ですからそれぞれの択での微分は次のようになります。
$$
\frac{dP}{da}=\frac{d(a+d-b-c)-(ad-bc)}{(a+d-b-c)^2}\\
=\frac{da+d^2-bd-cd-ad+bc}{(a+d-b-c)^2}\\
=\frac{d^2-bd-cd+bc}{(a+d-b-c)^2}\\
=\frac{(d-b)(d-c)}{(a+d-b-c)^2}\\
=\frac{(a-b)(a-c)(d-c)(d-b)}{(a+d-b-c)^2}\times \frac{1}{(a-b)(a-c)}\\
=K\times \frac{1}{(a-b)(a-c)}
$$
$${K=\frac{(a-b)(a-c)(d-c)(d-b)}{(a+d-b-c)^2}}$$と置きました。$${a}$$以外の微分にも同様に計算して以下のようになります。
$$
\frac{dP}{db}=K\times \frac{1}{(a-b)(d-b)}\\
\frac{dP}{dc}=K\times \frac{1}{(a-c)(d-c)}\\
\frac{dP}{dd}=K\times \frac{1}{(d-b)(d-c)}
$$
つまり微分の比=隣の択との差の逆数の比となります。
考察
隣の択と差を取って逆数にすることで微分の比、ひいては最終的な勝率への貢献度を求められる事がわかりました。
さて、この結果からどの択の勝率を高めると効率的と言えるでしょうか?
分母=0の状況
計算結果に逆数が出てきた時の基本は分母が0になる場面に注目することです。逆数の性質として分母が0に近づく時に急激に大きくなります。$${(a-b)}$$や$${(a-c)}$$が0になる時に$${a}$$の微分が大きくなるわけですから言い換えると$${a=b}$$のように同じ勝率の択があると$${a}$$を増やす価値が爆発します。
もう少し踏み込んでみます。同じ確率の択が発生するのはどのようなときでしょうか?$${a=c}$$に近い部分が存在するような行列を具体的に作ってみます。
$$
\begin{pmatrix}
a=51\% & c=49\%\\
b=5\% & d=95\%
\end{pmatrix}
$$
$${a=c}$$がほぼ0なので今回の計算結果からは上側の二つ($${a}$$と$${c}$$)を増やすことが非常に重要になっていることがわかります。$${a}$$と$${c}$$が同じだと左側のプレイヤーが上側の選択肢を取った時に相手の選択に依存せずに同程度の勝率を出せる状態(=安定択が存在する)ことがわかります。つまり分母0の条件を言い換えると「安定択が存在する時は安定択の勝率を改善するのが最も総合的に勝てるようになる」ということがわかります。
ちなみに上側のプレイヤーから見た時の右側の選択肢も読み負けて$${c=49\%}$$で抑えつつ読み勝って$${d=95\%}$$のハイリターンなので安定した選択肢になっているように見えますが、こちらの場合は微分が大きくなる現象は起きません。今回はあくまで相手の行動による勝率の差が小さい場合に限って「安定択」という言葉を使う事にします。
具体的に$${abcd}$$を1%ずつ上げてみて勝率の増え方を比べてみましょう。
もとの勝率$${P}}$$は50%です。計算の結果をまとめると次のようになります。
$$
\begin{pmatrix}
a=51\%+1\% & c=49\%\\
b=5\% & d=95\%
\end{pmatrix}\\
\to 50\%+0.48\%
$$
$$
\begin{pmatrix}
a=51\% & c=49\%+1\%\\
b=5\% & d=95\%
\end{pmatrix}\\
\to 50\%+0.49\%
$$
$$
\begin{pmatrix}
a=51\% & c=49\%\\
b=5\% +1\%& d=95\%
\end{pmatrix}\\
\to 50\%+0.01\%
$$
$$
\begin{pmatrix}
a=51\% & c=49\%\\
b=5\% & d=95\% +1\%
\end{pmatrix}\\
\to 50\%+0.01\%
$$
どの部分の確率を上げるかで勝率の増え方が全然違いますね。「低いところを補う」とか「強いところをさらに伸ばす」といった視点にならずに「安定択」が重要になるのがポイントです。
一般の状況:数直線を使った考察
分母がほぼ0になるのは流石に少し特殊です。もう少し一般的に考察するために$${a,b,c,d}$$を一列に並べた次のようなグラフを書いてみることにします。
このような図形を書くと$${abcd}$$は数パターンに分けられることがわかります。ちなみに$${a < b < c < d}$$とかだと実質的に一択になって択にならないので図形の上側二つは$${a,d}$$のように対角線の二つになるようにします。
一つずつ場合分けして考えていきます。
①一つだけ離れたところにある場合
離れてる一つを$${c}$$とします。微分の比は隣合う要素との差の逆数を取ることになるので$${c}$$を含む差が分母に来ると微分が小さくなります。具体的には次のように太字部分が多い項が重要ではなくなります。
$$
\frac{dP}{da} : \frac{dP}{db}: \frac{dP}{dc} : \frac{dP}{dd} =\frac{1}{(a-b)\bold{(a-c)}}
: \frac{1}{(a-b)(d-b)}: \frac{1}{\bold{(a-c)(d-c)}} :
\frac{1}{(d-b)\bold{(d-c)}}
$$
つまり離れた数値のところの価値が低く、その対角線の確率の重要度が最も高くなります。
①は一つだけ離れた値を取っている時ですが、その一つが「一つだけ大きい」になっている時大きいところの対角線を高めるのが良いわけなので、「択を作る」ように設計するのが大事になります。
一方「一つだけ小さい」の時は一つだけ離れている数値($${c}$$とします)が一番小さく、重視すべき対角線は下から2番目に小さい$${b}$$になります。例えば次の行列で$${b}$$を増やそうとするわけなので、言い換えると下側の選択肢を安定択にするような構築が正解になります。つまりこの場合は「択を消す」を目標にするのが大事になります。
$$
\begin{pmatrix}
a=55\% & c=5\%\\
b=45\% & d=60\%
\end{pmatrix}
$$
このように状況次第で択になるようにするのが強いのか、択にならないようにするのが強いかが変わってくるので注意が必要です。
②真ん中二つが近い時
この場合は分母が0に近いケースと同様の計算から真ん中の二つが重要になります。安定択を選んだ時のリスクリターンを改善しましょう
③上下に二つずつ分かれる時
簡単のため$${c < b < d < a}$$とします。対称性からこうやっても一般性を失いません。$${d-b=\Delta}$$と置いて、$${d-a=l,b-c=s}$$とします。(l,sはlarge, smallの頭文字からです.)
$$
\frac{dP}{da} : \frac{dP}{db}: \frac{dP}{dc} : \frac{dP}{dd} =
\frac{1}{(\Delta+l)(\Delta + l + s)} : \frac{1}{\Delta(\Delta + l )} : \frac{1}{(\Delta+s)(\Delta + l +s)} :\frac{1}{\Delta(\Delta + s)}
$$
$${\Delta}$$が大きく$${l,s}$$が小さい想定なのでそれぞれの微分がほぼ同じになることがわかります。このようなケースはどこの択を重視すれば良いとかが無いわけなのでとにかく数字を伸ばしやすいところから変えていくのがいいことがわかります。
まとめ
勝率$${P}$$の微分を計算して微分の比が隣り合う行列要素の差の逆数の比になることを求めました。
$$
\frac{dP}{da}\propto \frac1{(a-b)(a-c)}
$$
これを使って勝率を伸ばしやすい択はどれかを求めました。それぞれのケースに対するまとめは次のようになります。
一つだけ飛びぬけて高い/低い要素があるときはその対角線を重要視するのがよい
まんなかの二つが同じくらいの時(=安定択が存在する)ようなケースは安定択を選んだ時の二つの確率を重視するのが大事
択勝ちした時の二つ/択負けした時の二つのように半分ずつ分かれている時は選択肢の優劣は少なくなる。どれでもいいからとにかくabcdいずれかの増分が大きくなるように増やしてよい。
あとがき
いかがでしたか?わたし個人の感想としては、強い部分の対を強化して択を作った方が良かったり安定択を強化して択にならないようにするのが良かったりと言った戦略の違いが$${abcd}$$の大小関係に応じてさまざまに変わるのが興味深かったです。
計算して数式を求めるだけなら前回時点でほぼ終わっていましたが、こうやってその数式の意味をきっちり考えると結果の理解が全然違います。前回時点でこういう考察するつもりだったけど考え方が降りてこなくて無念の断念だったので雪辱できて満足です。計算するならこういった考察は常にセットで出来るようにしたいですね。
2×2という最も単純なケースですが基本が大事ということできっちり考えてみました。前回と合わせて面白いと思ってもらえれば幸いです!
でわでわ!また次回~~~