02 The Elements of Game Theory ④The Nash Equilibrium ⑤The Indifference Principle ⑥The Clairvoyance Toy Game
The Nash Equilibrium ナッシュ均衡
ポーカーの世界では、GTO(Game Theory Optimal)はナッシュ均衡の同義語として使われることが多いです。
ナッシュ均衡とは、以下のような戦略の集合のことです。
♦プレイヤーは千里眼である:
各プレイヤーは他のすべてのプレイヤーの正確な戦略を知っている。
♦すべてのプレーヤーは、同時にお互いを最大限に利用する。
♦どのプレイヤーも自分の期待値を上げるために一方的に戦略を変更することはできない。
均衡戦略は、搾取不可能な相手と対戦した場合、最大限の搾取が可能であるため、MESの特性をすべて受け継いでいる。
♦個々のハンドは常に最も収益性の高い方法でプレイされる。
したがって、GTOプレイでは、バランスのために、プレイすべきハンドよりも収益性の低いハンドをプレイすることは決してない。
♦厳密に支配された戦略は、どのプレイヤーも使うことが不合理であるため、ナッシュ均衡の一部となることはない。
♦平衡状態(混合戦略)において、あるハンドが複数の方法でプレイできる唯一の方法は、複数の戦略選択が同じEVを持つ場合である。
以下は、10bbのスタックでのヘッドアップで、プッシュとフォールドしか選択肢がない場合のナッシュ均衡解(HRCで生成)です(ハンドレンジ23と24)。
ハンドレンジ23:
BNナッシュ均衡
ハンドレンジ24:
BBナッシュ均衡
異なるイテレーションにおける両プレイヤーのプッシュ/フォールドゲームの値(表9)。
プッシュ/フォールドの例では、BBがBNが最初のイテレーション(100%のレンジでプッシュするだけ)にあると知っていた場合、66.21%のハンドをコールするというMES戦略を適用すれば、BBのEVは13.77に改善されることになる。しかし、BBがBNのプレイを誤解していた場合、あるいはBNがBBを出し抜き、代わりに第2反復戦略(46.61%のプッシュ)を行った場合、BBのEVは実際には8.48に減少することになる。BBがGTO戦略でBNのプッシュに対して37.4%のコールをした場合、BNが何をしようと彼らのEVは10.45になることが保証されている。
ナッシュ均衡戦略やGTO戦略が強力な理由の一つは、最小限のEVを保証してくれることです。この戦略の定義は、相手があなたの戦略を知っていて、その戦略があなたの行動に対する絶対的なベストレスポンスであることを前提としています。これがGTO戦略がunexploitableと呼ばれる所以である.つまり,相手があなたより優位に立つことは数学的に不可能であり,あなたは収支を合わせるか利益を得ることになるのです.
また、ナッシュ均衡をとることの利点は、おかしなレベリング合戦をして相手を騙そうとする必要がないことです。GTO戦略は定義上、特定のタイプの相手に対して特定のプレイをすることはありません。相手があなたのすることに正しく適応することを前提としているので、常に相手の頭の中を理解しようとするのではなく、堅実なポーカーをすることに重点を置いています。
あなたの戦略に完璧に対抗していない相手(GTOをしている相手)に対してGTOをした場合,あなたの期待値は均衡時よりも大きくなり,相手の戦略が悪くなるにつれて大きくなる.しかし、均衡の戦略は、相手の特定のミスに対抗するために完璧に設計された戦略ほどEVを稼げません。トッププレイヤーは、タフな相手や未知の相手に対して搾取されないように、ベースラインのGTO戦略を健全に開発しますが、相手のプレイをより深く知ることで搾取的な調整を行い、相手のリークを利用する能力も持ち合わせているのです。
サンプルはここまで!
ここから先は
¥ 200
この記事が気に入ったらチップで応援してみませんか?