No.2 GTO Wizard Blogの解釈記事【What is GTO in Poker?】

2024年4月13日 12:46

本記事はGTO Wizard Blogを私なりに解釈し、友人に説明するならどのように書くかな？と再まとめしたものとなります。

今回の記事は「What is GTO in Poker?」になります。

■ ゲーム理論の入門

まず初めにゲーム理論の入門編として、簡単な説明をしよう。「01.What does GTO aim to achieve?」でもお話ししたようにポーカーにおけるGTOとはゲーム理論（Game Theory Optimal）のことである。
※横道に逸れるが、ゲーム理論は、数学者ジョン・ナッシュによって構想された「戦略的相互作用の数学モデル」についての研究である。

その応用は、過去数年間にわたってポーカー戦略の発展を形作り、トップレベルで勝つためには、GTOの原則に関する知識＆理解が必要とされるまでとなった。

💡 ポーカーにおけるGTOとは、ナッシュ均衡戦略を指す。

こちらも前回の記事で記載したことだが、ナッシュ均衡戦略は誰も自身の戦略を変えることで期待値を上げることができない。そのため、誰にとっても最適な戦略となるのである。
※最適といっても、相手がナッシュ均衡戦略を取らないのであれば弱みに付け込む「正しい」エクスプロイト戦略を取ることで自身がナッシュ均衡戦略を取ることよりも多くの期待値を取ることができることは忘れてはならない。

簡単に前回の記事についておさらいしよう。

ナッシュ均衡とは今の戦略が最高すぎるため、誰も戦略を変えようとしない。＝戦略を変える誘因が存在しない。状態のことを指す（かなり意訳をしています）。
GTO戦略は固定戦略であり、エクスプロイトをされない戦略である。
エクスプロイト戦略は動的戦略であり、場合によってはGTO戦略よりも、より多くの利益をもたらすことが可能である。
GTO戦略とエクスプロイト戦略のリスク＆リワードは以下の通り
リスク：エクスプロイト戦略の方が高い
リワード：「正しいエクスプロイト戦略であれば」エクスプロイト戦略の方が高い

■ GTO戦略の見つけ方

ではどうやって、GTO戦略が構築されているのかについて説明しようと思う。
GTO戦略は「ソルバー」と呼ばれるソフトウェアを使用して、シミュレーションを作成し、解析することができる。

ソルバーは、以下の条件を入力し、様々な解析をかける。

プレイヤー（2名）のプリフロップレンジ
ボードカード
エクスプロイトの精度
開始ポットとスタックサイズ
ポストフロップのベッティング構造（どのようなベットサイズを使うか＆何サイズ使うか等）

ノーリミットホールデムは、ほぼ無限のサイズにてベットをすることが可能である。限られた計算能力しかないソルバーに意味のある結果を吐き出させるために（計算時間の時間短縮にもなる）、「いくつかのベットサイズに固定しなさい」を指示する必要がある。

上記図のようにシミュレーションを設定すると、ソルバーは各プレイヤーの戦略を反復する。各プレイヤーはお互いをエクスプロイトし合うのである。そして、どちらのプレイヤーの戦略もエクスプロイトされなくなる地点に達した時点がGTO戦略となる。

💡 双方がエクスプロイトできない、一番期待値の高い戦略になったよね。それは今まで説明してきたナッシュ均衡であり、GTO戦略だよね。ということ。

BTN（IP）対CO（OOP）3BPがナッシュ均衡になるまでのアニメーションを添付しよう。
最初は両プレイヤーが「相手をエクスプロイトしてやる!!」と様々な新しいアイデアを試す。そのため、戦略が激しく変化様子が見て取れる。次に、均衡に向かうにつれてお互いの戦略の変更が少なくなっていき、最終的にお互いをアジャストできない地点に達する。＝GTO戦略となる。

アニメーション画像はページにて

このような計算結果を先人たちがしてくれ、その計算結果を我々は見て学ぶことができる時代になったのです…。ありがとう…、先輩たち…。

■ なぜGTOを学ばないといけないの？

「エクスプロイト」/「GTO」プレイヤー（型）という言葉を聞いたことがあるかもしれない。実際、これら2つのアプローチは対立するわけではなく、同じコインの2つの側面のようなもの（喧嘩ゼッタイダメ!!）。

ただやはり、前回の記事でも記載したように、GTO戦略がどのようなものか分からない場合、相手をエクスプロイトしているのか、逆にエクスプロイトされているのかを知ることはできない。間違え探しの絵本を渡されて、一枚の絵しかないようなものである（ゴミな例えですみません）。
GTOを深く理解することで、負けないデフォルト戦略をプレイすることも可能なうえ、相手のミスを突き止めることができるようになるのが目的である。

じゃあ、GTOの直感を磨くことが、エクスプロイトにどのように役立つのだろう。 GTO戦略をプレイしていても、レンジの相違によって、一方のプレイヤーが極端なアクションを取ることができる場面は多くある。

代表的な例を以下の通り。

オーバーベットでキャップされたレンジを攻撃する。
例）プリフロップで相手は3betにコールをしてきた。そうすると基本的な考え方として、相手にはAAやKK等の強いハンドはレンジには存在しない。そのようなキャップされたレンジを攻撃するのである。
相手がギブアップしたラインに対して、すべてのエアをブラフする。
相手のレンジが選択したベットサイズに十分なブラフが含まれていない場合、すべてのブラフキャッチャーをフォールドする。
※相手のレンジにブラフが十分に含まれていないなら、こちらは全てのブラフキャッチャーをフォールドしてよい（これ結構面白いので最後に説明しますね）。

💡 相手がどのようにGTO戦略（基準）から乖離しているかしたかを理解することで、アンバランスな相手に対して、エクスプロイト戦略を練るのに必要なすべての情報を手に入れよう。結局、そのような情報がなくても上手くはまればエクスプロイトができるのだが、GTO戦略との乖離から「正しい」情報を得て、そして「正しい」「最大の利益を得られる」エクスプロイトをしよう。

だから、GTOを勉強したほうがいいよね。
※「しなければならない。」ではなく「したほうがいいよね」であり、GTO戦略を強要してはいけません。人それぞれの考えや楽しみがあって、そのプレイをしていることを忘れないでいよう!!ポーカーは無限の楽しみ方、対応の仕方があって、我々はただその一部の対応のGTO戦略を学ぼうとしているだけなのです（カックイィこと言えた…）。

■ まとめ

今回の記事を最後にまとめましょう。

GTOはベースラインの戦略を理解するのに役に立つ。
そのベースラインを認識することで、相手のミスをどのようにしてエクスプロイトするかを知ることができる。
GTOはNash均衡を通じてエクスプロイトされないバランスの取れた戦略を実現する。
GTOは強いプレイをするために読みや直感に頼る必要はない（固定戦略の強み）。

GTOの理解は、どのような状況にも適応し、どんな相手に対してもウィンレートを最大化するための土台を提供する（決して、GTOをプレイしたからといって最大のウィンレートになるわけではない。何度もお伝えするが、より多くの利益を出す可能性がある戦略はエクスプロイト戦略である）。

■ ブラフが含まれていない云々の話

将来の記事で詳細に話す機会があるため、その記事で記載ができればと思います。

結論、相手のレンジに十分なブラフが含まれていない。と自身が判断した場合、ブラフキャッチはしない。100%しないが正しくなります。全部フォールドしましょう。

難しい話ですが、相手がベットをしてきた場合、そのサイジングによって、バリューとブラフの比率が理論的には決定します。そのブラフの数が少ないということはコール側は相手のバリューにマイナスのコールをする場面が増え、相手に利益を与えることが多くなる。ということです。

コールをする目的はわかりますか？
それは相手に標準以上の利益を与えないためです。コール側がもしフォールドをし続けた場合、相手は「あいつ降りるな＾＾全部ベットして降ろしてやれ＾＾」となるわけで、それを防ぐために「適切な頻度」でコールをする必要があります。
ただ、そのコールがマイナスをたたき出すと意味がないのです。そのマイナスの閾値を決定するのがバリューとブラフの比率であり、ブラフの比率が「適切な頻度」よりも低い場合はマイナスの閾値に突入するため、100％フォールドする。になります。決して、マイナスをたたき出すコールをしてはいけません。

さぁ、そこで降り続けていると「あいつ降りるな＾＾」と相手は考えてくるわけですが、ブラフ頻度が「適正な頻度」よりも高くなってきますね？そこにアジャストしていって自分の戦略を変えていけるのがポーカーの面白いところになります（次は極端ですが100%コールしたらいいわけです。これは利益をもたらすコールになりますよね）。

【重要】
上記の考え方を適用するには色々な条件や他の理論の習得必要性があります。そのため、「へぇ、そんな考え方もあるんだ。じゃあその必要な理論を学ぶかね！」と勉学のとっかかり捉えてもらえると助かります。

この記事が気に入ったらサポートをしてみませんか？