思考をハンドレビューする

2024年3月29日 22:16

今回は中上級者に向けて、ハンドレビューの仕方、およびGTOソフトを基にした勉強の仕方について説明をしていこうと思います。

「どうすればpokerがうまくなるのだろうか」
というのは全poker playerの持つ悩みではないでしょうか？
また
「座学って具体的に何をするのか」
「Exploitの勉強とはどういう風に行うのか」
「GTOWizardを使ってExploitの勉強はできるのか」
等も気になる人が多いと思います。

最も初歩的なpokerの座学であるハンドレビューを通じて、pokerの実践における基本的な考え方とその合理的な学習方法について説明できればと思います。

後半は少し難しい話かもしれません。興味のある方は読んでいただけると嬉しいです。

基本的にGTOWizardを用いて説明します。
断りがなければ50nl GTO GTO Generalです

・Step0 自身のレベルの設定

GTO vs Exploit論争のようなものでもよく目にしますし、偉い人も良く言っていることに「pokerは対人ゲームだからGTOにとらわれるべきでない」という議論があると思います。

個人的には、GTOすらある程度把握してない人がNLHで十分な実力を出すことは不可能だと思います。

自分自身が特定のhandを振り返る際、
1.GTO的な戦略構築はどうなっているだろうか？
2.自身のプレーは実際に利益的なものであっただろうか？
という２つをしっかり分けてレビューをしましょう。

例えば以下のシチュエーションを振り返るとします。

utg (Hero) 2bb open with QdQc
BB call

Flop AsKh8h
x/x
Turn Qs
x/c
125% bet
River 2d
x/f
125% bet

GTO Wizardの提示する戦略は

Flop時点での大サイズを基調としたレンジbetです。

この時、
自身がこの戦略を理解してなおcheckを利益的と選んだ
のか
そもそもQQをチェックすべきハンドと想定していた。
のかは非常に重要です。

GTO戦略は軽視されがちに感じていますが、間違いなく強くかつ難しいです。

自身がGTO戦略を理解していない場合はExploitの土台にのっていないので、まず自身の知識をupdateする必要があります。
この場合は
Step1.GTO戦略を学ぶ
を意識しましょう。
そうでなくこの程度の戦略は十分持っているだとか、もしくは150%bet or checkを採用していて、そちらのsolutionを採用しているだとか。
少なくともGTO戦略は概ね問題がない場合は
Step2.EVの源泉を理解する。
を意識するべきに思います。

・Step1 GTO戦略を学ぶ

・非効果的といわれるハンドレビュー

ハンドレビューを行う際に
「QQはFlopでbetをすべきであってcheckは間違いだった」
という結論が一番初めに感じられるでしょう。

ここで
「次回からQQはbetをしよう。」
というように考え、ハンドレビューを完結させてしまうことは非常にもったいないです。

これだけではせっかく自分のリークを見つけたにもかかわらず
「UTG vs BBのAK8 QQはflop bet」
という知識しか身につきませんし、このようなtipsの知識を纏めていって均衡の理解を深めることは非常に困難です。
ハンドとレンジのnoteでも書いたことですが、レンジ全体の戦略に着目する必要があります。

・handの答え合わせに終わらないレンジレビュー

ハンドレビュー中に意外なGTO戦略を見せられ、驚くこともあるでしょう。
その場合GTO戦略を学ぶことになりますが、どのようにすれば効率的にGTO戦略を学ぶことができるでしょうか？

先ほど提示したUTG vs BB AK8ttについて見てみましょう。

まずGTO戦略はレンジbetを行っていました。

なぜレンジbetを行っているのかを理解するために、
レンジアドバンテージがあるのかを見に行きましょう。

EQグラフを確認するとutgのレンジEQは明らかで確かにレンジbetを行うべきだと考えられそうです。

レンジEQ自体を見に行くのもよいでしょうか。

レンジEquityはutgが66.6%と非常に高く、レンジアドバンテージがありますね。

レンジ全体の戦略がレンジbetになるということは把握できました。
しかしながら大きいサイズも使用していますね。
これはどのようなハンドで行うべきでしょうか？

124%betにフィルターを掛けるとKK,88やAK,AQ,AJというナッツ級をメインとしたvalueとKlowやQQ以下のpocket及び78s,89sといったヒット系,QJ,QT,JTなどのSDをbluffしていることが分かります。

なるほど、このスポットではKlow以下はすでにbluffに変えてもよいようなハンドになっているわけですね。

一方でAlowのようなところ,K+highのようなところはマージナルとしてチェックしています。

余談ですが、このようなvalue bluffを見るときは
相手のレンジを見るべきです。

実際はcheck checkをたどったわけですが、

check 125%betをたどった場合にセレクターを変更します。

すると相手はA+lowやK+highをindifferentに応答します。
なので、ここより強いところと弱いところで打っていれば自レンジの構築はわかりますね。

とにもかくにも、GTO戦略のFlopはこのようにしていけば理解できそうです。

このようにhandがあっていたかの答え合わせに終わらないレンジレビューを皆さんしているでしょうか？

確かにこのレビューはレンジ全体の戦略を調べているという点でハンド単体の答え合わせレビューよりマシといえるでしょう。

しかしながら私は、このようなレビューを行うことは上質といえないと思います。

・実力向上を目的とした戦略レビュー

我々がハンドレビューを行う際にしたいことは、
GTO戦略が妥当なことを説明すること。
ではなく、
そのハンドから新たな知識を得て実践に活かすことです。

例えば
「AKhi ボードは125% sizeを基調としたpolar betを行うので、QQというマージナルなハンドはcheckすべき」
という意思決定で実践ではチェックをしていたとします。

この時の問題点は
・AKhiボードはpolar betと誤解していたこと
・QQをマージナルだと誤解していたこと
の２点がメインであり、

目標は、このような誤解をしないよう知識をupdateして実践に活かせる粒度で落とし込むことです。

まずボードの戦略を誤解していたことについて調べてみましょう。

AKhiボードはpolarも用いていますが、レンジに近いcbを基本的に達成しています。コネクトは安くレンジbetしています。
このことから
・utg vs BB AKhiボードはレンジbetがメイン
という知識を獲得できます。

この知識は先ほどのレンジレビューで得られた答え合わせと異なり、実践での意思決定に影響を与える戦略構築の知識です。

ところでなぜpolarと誤解していたのでしょうか？

こちらはBTN vs BBでのAKhi 集合分析です。
polar betをしていますね。
このことから
・BTN vs BB AKhiボードはpolar betがメイン
・utg vs BB AKhiボードはレンジbetがメイン
という誤解ない意思決定の知識を身に着けることができます

このようにpositionやレンジを変えた場合のシチュエーションを調べることで意思決定の基準も更新されるでしょう。

今回は
「utg vs BB ではrange cbを行うはずのAK hiでBTN vs BBの戦略を流用してしまい、polar戦略を用いてしまった」
ということが原因でミスをしていたことが分かります。

次にハンドの選定を誤解していたことについて調べてみましょう。

こちらもBTN vs BBを見るとQQはpure checkです。
やはり
・positionを考えず戦略を構築してしまう問題がある。
ということが分かりますね。

この問題はどのようにしてExploitされてしまうでしょうか？

強いハンドであれば、
相手のレンジが強くなりすぎて自ハンドのEQが死ぬまで打ってしまう
こと
弱いハンドであれば
EPなどレンジが狭いときにbluff過少になっていそう
ということが想定できると思います。

例えばほかのスポットでEPのpocketがbluffに回っているかを見ていきましょう。

EP vs BBのJT2ttを適当に開いてみると
88~33でbluffを検討しているように見えます。
またAhiもbluffに回っていますね。

50%betに対する相手の応答は上のようになっているそうです。
確かに合理的といえるでしょうか？
ここで自身が66などのハンドをbluffする選択肢を持たなければ、やはりEPのbluffレンジに疑問があることが確からしくなります。

以上の戦略レビューでは
・自身の均衡乖離を把握する
・問題点の原因となった思考の流れを振り返る。
・なぜそのような思考になってしまったかを考える。
・改善すべき点やupdateすべき知識を見つける。

という、方針をとっています。

先ほどまでのレンジレビューでは
「AK8はrange betでQQはbluffでいいのか」
で終わっていました。

これは大きな違いです。

ーーー判断を確認するーーー

さて、戦略レビューを有意義にできていたかを確認するために非常に便利な方法として判断を確認することをお勧めします。

今回考えるべき意思決定は
utg vs BB AK8で全size混合のrange betをするのがGTO
QQはbluffハンドとするのがGTO
と判断できるか

ということです。

このボードを見た時、当該戦略レビューののちには
utgAK8のボードはAKhiなので全サイズ混合のレンジbetだろう。
そして
utg under pocketはbluffしてよい場合が多い
となっていることでしょう。

ではQQはどうでしょう。

実践でQQを持っていたときにどんなことを考えるかをじっくり考えてみてください。

「とはいえさすがに強いのでbluffに回すほどではないのではないか？」

という甘えたことが頭をよぎりそうでしょうか？

もしそうであればハンド選定についてもう少し深堀する必要があるでしょう。

例えば
「77くらいであればbluffしても良さそうに感じるがQQは回したくないと感じる」
くらいの感覚を持っているのであれば類似のAQhiボードなどでJJの扱いなどを確認してみたり、bet時の相手のIDを確認してみたりするとよいでしょう。

ーーー戦略レビューのまとめーーー

戦略レビューについて振り返ってみます。

・自身の均衡乖離を把握する
　→Flopのrange CB戦略やQQのbluffを知らなかった
・問題点の原因となった思考の流れを振り返る。
　→「AKhi ボードは125% sizeを基調としたpolar betを行うので、QQというマージナルなハンドはcheckすべき」と考えていた
・なぜそのような思考になってしまったかを考える。
　→BTN vs BBのシチューションの知識を援用していた
・改善すべき点やupdateすべき知識を見つける。
　→utg のAKhi range CBを確認し、このようなボードでのbluffレンジがBTN vs BBに比べ非常にハイポケットまで含まれることを確認した。
・実践での意思決定に差支えがなさそうかを振り返る。
　→AK8を見た時点でupdateされた知識からrange betは着想できること、under pairはbluffに属すること。この２つからQQはbluffに変えることを着想できそうである。

ーーー3種のレビューまとめーーー

其々のレビューの違いをまとめていきます

・ハンドレビュー
　→自身のとったそのハンドのプレーラインが正しかったかを確認する。
　　よく揶揄されるように効果の薄いハンドレビュー
　　レンジで戦略があっていたかの確認はできていない。
・レンジレビュー
　→均衡的なレンジ戦略が正しく想定できていたかを確認する。
　　一般的に推奨される効果的なレビュー
　　実践上の思考や戦略構築に合致しているのかを確認できていない。
・戦略レビュー
　→自身の思考過程を基に戦略構築プロセスを確認する。
　　問題点を整理し実践的な知識をつける。
　　改善点を明確にし目標である実践上での均衡理解に繋がるかを
　　確認している。

・Step２ EVの源泉を理解する

さて、貴方が非常に熱心なplayerであり、この程度のスポットであれば
「均衡はFlop range betだろう
QQもブラフに回りうるだろう
しかし今回はチェックでもよい気がする」
というような考えでチェックをしていたとしましょう。

このようなときは既に「Step１ GTO戦略を学ぶ」に戻る必要はありませんね。
大事なことは
今回のアクションがgoodだったのか？
ということです。
もう少し固く言えば
QQはExploit戦略としてcheckになりそうか？
ということでしょうか？

このことを確認するためにどのようなハンドレビューをしていけばよいでしょうか？

それを理解するためには
ExploitabilityとEVを分けて考える
という非常に基本的な姿勢を理解する必要があります。

まずはその前座として、node lock機能を使用してQQの戦略変化を見ていきます。

次章の目的は一般的に推奨されるnode lockを用いた
「相手の戦略を想定して対人ゲームとして最適な戦略を打てていたかを確認するという優れたハンドレビュー」
なるものがnodelockの使い方として非常に残念なものであることを指摘することです。

・node lock戦略での確認

ここからはGTOWizardのWizard AI機能を使用して説明します。
例えば125% betに対する相手の応答を考えてみます。

GTO戦略では画像右側のようにすでにA+good kickerやK+good kickerにfoldがありますが、
相手はrecであってそれらのfold頻度は結構低いことを想定してみます。

この推測はBTN BBでのcb defenceをutgに援用した形をしています。実際はもっと広くcallしてるかもしれませんが、callが広いという仮定なら悪くはないと考えられるでしょうか？

この時QQの戦略はどうなるでしょうか？

(50%や75%に対する応答をnode lockしてないので少し雑ですが)Flopは既にpotover or 33% or checkとなっており、QQにcheck頻度が生えてきました。

なるほど、実践だとQQをチェックするというのはvs recでは悪くない選択に思えてきました。

このようなレビューは
「・相手の戦略を想定し
・それが妥当そうかどうかを確認し
・実際の対人で最適応答を確認している」
という形で均衡を眺めるより実践的と感じられるかもしれません。

このようなハンドレビューを通じて
「自身のとったそのハンドのプレーラインは実践的に正しかった」
として次に進んだり
「自身のとったそのハンドのプレーラインは実践的にもいまいちだった」
と考え一喜一憂したりというのは結局

Step1で言う3つのレビューのうち
ハンドレビューをnode lockをして行っているだけです。

我々が効果的なハンドレビュー(戦略レビュー)を行うためには
自身の戦略構築が実践上利益的なものをとるように向かう正しい思考プロセスになっていたのか？
ということを確認する必要があります。

そのためにはハンドのEV自体を深堀して理解していく必要があります。

・ExploitabilityとEVを分けて考える

均衡ではQQは33%~125%betの混合戦略です。
このことは
QQは
33%~125%でEVは等価でありcheckEVは低い
ということと
このような混合比を持っていない場合はExploitされる
という2点を指摘しています。

そしてこれらは本質的に
相手の静的な戦略に対するEVの指摘と、
相手の動的なExploitabilityのケアと
で異なるものになっています。

この部分が理解できない方は
純粋戦略と混合戦略についてしっかり確認をしましょう。

今回の場合で言えば

・EVに関する議論
33%~125%でEVは等価でありcheckEVは低い
・Exploitabilityに関する議論
このような混合比を持っていること

です。

自身が戦略構築をする場合、

相手の静的な戦略に対してそれぞれのEVはどのように作用するか？
自身が混合比を崩した場合どのようにExploitされるか？

ということが思考のプロセスに含まれるべきです。

「均衡はFlop range betだろう
QQもブラフに回りうるだろう
しかし今回はチェックでもよい気がする」
と考えてチェックしたわけですが

QQをチェックに回してEVはほかの選択肢より高いのか？
またQQをチェックしてしまっても本当に"よい"(Exploitされない)のか？

ということが今回の思考プロセスが正しかったかの判断ではないでしょうか？

・EVはどこから来るのか？

まず
QQをチェックに回してEVはほかの選択肢より高いのか？

という点について考えてみましょう。
note内では簡易的にcheckと125%betで比較していくことにします。

まず125%betのEVを精査してみます

QQのターン以降の戦略を見てみましょう。

概ね4パターンにくらいありそうです。
dやcのラグでブラフ継続EVに担保されている。
sでbet check indifferent
hであきらめている。
hのハイカードで安いブラフを継続している。

ボードを開いていけば分かることですがQを当ててvalueに昇格する形を除いて基本的にはEV０~１付近になることがほとんどと分かります。

やや乱暴ですがマルチストリートでExploitを採用できるようなラインを除けばQQの125%betはFlop bluff EVにかなり依存していることはわかると思います。

最も大事なことがFlopでのbluff成功が均衡よりEVが上がるかどうか
であることは疑いようがないでしょう。

EVは相手の戦略により確定しますから、相手の戦略がどう変化したら
125%EVが向上するのか・減少するのか
ということを考えていくことになります。

実践的にQQでbetを行いより弱いメイドハンドにcallをもらうことはドロー以外では厳しいでしょう。

画像の緑の範囲からcallをもらうほど、
青のレンジからfoldされるほどEVは減少することは想像に難くないと思います。
ではFDにcallされることはEV的にはどうでしょう。

際どいと感じた場合はnode lockによりEVの変更を見ることができます。
均衡状態から相手のFDを全てcallに変更しrangeをlockします。

画面左側は変更後の戦略でQQでは125%betのEVを引き続き高く見積もっています。
FDのcall頻度の増減で特別QQのbluffEVが下がりすぎるということはないようです。

結局意思決定としては
相手のAやKを均衡以上におろせるかどうかでbluffを検討すればよく
少なくともBTN BBくらいでdefenceされるならcheckEVが十分高いハンド

ということになりますね。

上の検証では
QQのEVがどこから来るのかを
均衡のTurn以降の集合分析
Flopの相手応答によるEV遷移
から見極めており、
そのために自分が感覚的に理解できない部分を
node lockというツールを用いて確かめています。

実際はFlopでFDをコールしすぎたらTurn以降は特定のボードでブラフ過多になるとか、
AやKをかなりターンで降ろせるからマルチストレートのbetが利益的ではないかとか

そういう話はあるでしょう。
このようなことを判断基準に入れるため詳しい分析をしていくことは有益だと思います。
しかしこれらはnodelockなどを用いて完璧に検証していくことは殆ど不可能ですし、実践的でもありません。

注目すべきは
実践でQQを打つのかという意思決定をするプロセスに沿って,
そのプロセスを検証するかのように座学できていたのかということです。

node lockというツールは正確なレンジをinputしてその結果があってたかどうかというような非実践的な方法で使用するツールではなく、
自身の仮説を検証したり理解を深めるためのツールとして使用することがメインのツールではないでしょうか？

・Exploitabilityのケア

次にQQをチェックしてしまっても本当に"よい"(Exploitされない)のか？
ということについて考えてみましょう。

QQのチェックが利益的と想定される場合、JJなどのローペアやKlowなどのチェックもしていることでしょう。

このような戦略は相手にどのようにExploitされてしまうのでしょうか？

相手の動的なExploit戦略を調べるためには自身のレンジをnode lockする必要があります。

上のようにlockして過激なExploitを見てみましょう。

pokerに慣れた人なら分かることですが相手はコンデンスドなレンジをeffective Nutsを用いて2eで苛めています。
(checkレンジがこちらのレンジになってますね！)

つまり、
QQをチェックしてしまっても本当に"よい"(Exploitされない)のか？
ということは
あいてはこちらのレンジをコンデンスドと想定し、Kmiddle以上などを用いてProbeから苛めてくるか？
ということになります。

実際はここまで過激なExploitをしてくるとは限らないでしょう。
しかしながら、Flop range betするはずなのにチェックしたと相手が考えている場合はTurnからコンデンスドを苛めようと考えある程度過激な戦略をとってくることは想定できます。

相手がこのことに気づかず、TurnもBTN BBのProbeを打ってくるような場合はQQはチェックしてもよいかもしれませんし、
このように過激な戦略をカウンターしたり、そもそもチェックレンジにも強いハンドを混ぜたりという方法はあると思います。

結局大事なのはこちらがcheck EVが高いと感じるハンドをcheckしてもこのnodeになると相手がExploitしてくることはあるのではないかということを検討できているかどうかです。(Flop均衡外のcheckを使用しているわけですから。)

こちらのExploitもされないならなおQQはcheckしても問題ないかもしれませんね。

pokerにおいて、実践的に最適なExploitというものは非常に複合的な理由を考慮して得られるものだと思います。
EVの源泉を理解し、Exploitabilityを考慮し、
問題がなくEVの高い選択肢をなるべく多くの要因を考慮したうえで選ぶべきで、そのためには非常に多くの理論的な理解が必要です。

決してnode lockして合ってたからokという類のものではありませんし、それで座学を完結してしまうことは非常にもったいないです。

・あとがき

・Wizardは優秀か？

よくWizardはpioと比較して劣っているなどといわれます。
自分はpioのほうが良い点ももちろんあると思いますが、pokerの勉強をするうえでは、1spot座学をするだけでも非常に多くの類似スポットを調べ、非常に多くの集合分析をみて、非常に多くの(solver機能をもちいた)検証を行う必要があります。

そのためにはこのように高速に多くのスポットを確認できるツールは非常に便利であり、solverを圧倒していると感じています。

検証の際には精度を変更してみることも必要になるかもしれません。
そのためにはwizardではなくpioのほうが別格に優秀でしょう。

どちらのツールもよいところはありますし、両方使えた方がいいですが、自分はnode lockやsolverを回す以前に膨大な均衡のアーカイブから得られる知見が沢山あると思います。

・最後に

長いnoteになりましたが読んでいただきありがとうございます。
このnoteが、座学を見直す機会になり、座学を向上させる要因になればうれしいです。
マルチストリートでの考え方とか、node lock検証の代わりに別の均衡を見る方法とか、いろいろ書き残したことはありますが、今回はここで筆をおかせていただければと思います。

1万字を超える記事になりましたが、全文無料です。
ぜひお布施やサポート、GTOWizardのアフィリエイトリンク登録( gtowizard.com/p/Amuformu )などで応援いただければ嬉しいです。

スキやサポート、ツイッターのフォローや拡散だけでもぜひお願いします！