"忖度ゾーン" を考慮した簡易フレーミング評価の検討
こんにちは。これを書き始めた今(2020年7月24日です。なぜ年の瀬も押し迫った今平然とリリースしているのでしょうか。にんげんって恐ろしいですね)が昼なのでこんにちはで入りました。
今回のテーマは「フレーミング評価」です。捕球時のミットの動きを工夫することでストライクコールの確率を上げるキャッチャーの技術。どちらかと言えば捕球音に重きが置かれ、「良い音で捕る」指導がなされてきた日本野球でも近年はその技術に注目が集まっており、技術の言語化やその成果の定量化を目指す試みが行われるようになっています。
NPBのデータを扱ったものとしては、DELTA社が自社のデータソースを利用して算出しているものが有名で、同社が守備スタッツを元に独自に選定している、"1.02 FIELDING AWARDS 2019"の評価にも利用されています。まあこんなnoteを開く皆さんですからご存知かと思いますが…。
今回のnoteの目標はズバリ、このフレーミング指標の自力算出です。自力とは言ってもデータの集計や整理、公開のステップはほとんど他力なのでぼく自身がやっているのはそのほんの一部にすぎないのですが、要は「パンピーである我々が得られる・知ることのできる範囲でどこまでフレーミングを定量化できるか?」がリサーチクエスチョンだと思って下さい。
実は、というかまあ周知の通りなんですが、TJは遊びで今季からNPBのフレーミング指標の自炊に取り組んでおり、今回は下記のツイートで使用している数値の計算方法の紹介になっています。どう考えてもこのnoteの公開を先にやるべきでしたし、実際書き始めた()のは7月だったのですが、色々やらない理由を作り続けた結果、こういったことになってしまいました。二度とこういうことがないよう、強く言い聞かせようと思います。
ツイートでもさんざん予防線を張っていますが、ぼく自身もまだまだ指標には多くの改善の余地が残されていると思っています。このnoteを読んで「これっぽっちも信憑性がない」「こんな大穴があるぞ」「ここもっと詰められるだろ」「ちゃんとしろ」「あたまつかえ」など、あたたかいアドバイスを頂ければ即座に実行していこうと思うので、お気づきの点があればこの記事のコメント欄にでもTwitterにでも質問箱にでもお持ち下さい。よろしくお願いします。それでは本編。
本noteは長すぎて3部構成になってしまいました。単品でも長いです。ゆるゆるお付き合い下さい。
1.評価軸の設定
まずは現在利用されているフレーミング評価についてのレビュー。
フレーミング評価の定量化にあたって、もっとも直感的、かつ最もよく用いられる評価軸は「フレーミングによって増やしたストライクの数」です。定義上のストライクゾーンを通過していないにも関わらずストライクとコールされた投球の数を足し合わせて、逆に定義上ストライクであるにも関わらずボールになった投球の数を引いてやれば、それが文字通り「増やした」ストライクの数になります。
しかし、この方法は「ストライクをストライクとコールさせる」「際どいボールを明らかなボールに変えてしまう」技術としてのフレーミングを評価できない、という弱点があります。評価の対象になるのはストライクゾーンの境界を跨いだ投球だけで、「よりストライクに見える」「よりボールに見える」ことはプラスにもマイナスにも計上されないことになります。中心からゾーンの外に向かってストライクコールの確率が緩やかに下降していく現状のストライクゾーンの運用が実際の運用とは乖離している(※)ことを考えても、この方法がベストな方法であるとは言い難いでしょう。
※1年以上前にストライクゾーンの運用についてのnoteを書きました。ぼくはぼくのnoteの中でこれが一番すきです。興味がある人は読んでね。もう読んだ人はクリックしてね。
この問題をカバーしているのが、現在主流となっている以下の方法です。
詳細な情報はFanGraphsやBaseball Prospectusに記載されているので省きますが、手順としては
① 投球の通過位置の座標データ(トラッキングデータ)と実際のコールの情報を元に、平均的な捕手が守った時に「特定の位置を通過した投球が何%の確率でストライクとコールされるか」を推定
② ストライクを1、ボールを0として、実際のコールと手順1で計算した確率の差分を「捕手が増やしたストライク」のポイントとして計上。例えば、ストライクコールの確率が50%と推定されたコースへの投球がストライクと判定された場合、1 - 0.5 = 0.5が捕手の貢献となる。逆に同じコースがボールならば、0 - 0.5 = -0.5。
この方法を加えることにより、ストライクをストライクとコールさせたことに対してもプラス評価を与えることができます。平均ストライク確率30%のコースを50%の割合でストライクにすることができていれば、指標にもそれが反映されるわけですね。これを捕手毎に足し合わせた上で、ストライク1個当たりの得点価値をかけ合わせれば、フレーミングによる失点阻止能力を検討することもできます。
手順1の平均の計算は、実際にはカウントや打者の左右で分けて推定されています。今後機械判定が導入され、ストライクゾーンの枠組みが大きく変わらない限りは、現状この方法が大枠となると考えて間違いないと思います。
2. データの制約とその問題点
フレーミング評価の現状を理解したところで、次にこれを素人アナライジングに応用できるかを検討していきます。
NPBでは現在10/12球団が本拠地球場にトラックマンを導入しており、このデータが公開されていればMLBと全く同じ分析ができて話が早いのですが、残念ながら今のところ素人にこれを利用する術はないので(ここを書き換える時が来るといいですね~)、別のデータソースを考える必要があります。
今回ぼくが利用したのは、某NPBデータサイトの投球座標。皆さんのスマートフォンにもインストールされているでしょう、あのアプリのものです。さすがにアプリケーションの画面をスクショして貼っ付けるのは憚られるのでイラストでお送りします。
一球速報と呼ばれるデータ形式は多くのデータサイト、野球中継で幅広く使用されていますが、その中でも今回の分析において特に重要なのは真ん中の投球座標データ。↑のイラストのド真ん中にあるやつですね。ストライクゾーンの枠を引いた上で、それぞれの投球の通過位置に関する情報が公開されています。データは目視で入力されており、レーダー(トラックマン)を使ったものほどの精確性は期待できないものの、フォーマット自体はMLBでの分析をそのまま応用すればよさげにも見えます。
が、残念ながらそうはいかないのが難しいところ(だからこのnoteを書いてます)。このデータには大きな問題点があります。今回のnoteのタイトルにもなっている「忖度ゾーン」がそれです。
皆さんもご存知の通り、日本で公開されているほとんど(全て)の座標データには「実際のコールが投球の通過位置に優先される」という暗黙のルールがあります。平たく言うと、「たとえ通過したコースがボールでも(ボールに見えても)、その投球がストライクとコールされた場合は、ボールをゾーンの中にプロットする」ということですね。
実際に使用した投球データ(打者が見送った投球のみ)を図示するとこんな感じ。プロットするゾーンはストライク、ボール合わせて5×5の区画に分けられているようです。仕切りの上に乗っけるのは避けているみたいですね。
コールによらず実際に投球が通過した位置を記述するMLBのものと比べると、その差は一目瞭然です。
黒の枠線が定義によるストライクゾーン。ゾーンの中にもボール、逆に外にもストライクのプロットが存在していることが分かります。
こうなると困るのは、1節で確認した手順①、平均コール確率の計算部分。同じ場所を通過した投球が実際の判定によって別の位置にプロットされているわけですから「だいたいこの辺」以上の情報が得られません。そもそも「ストライクは中、ボールは外」なので、位置情報は平均的なコール確率についてほとんど情報を持たなくなってしまうわけですね。こうなると一般的なアプローチでの推定は不可能。出先で試合経過をチェックするぐらいなら気にならない問題でも、フレーミング評価を構築する上では大きな障壁が立ちはだかることになります。こまったね。
とりあえず今回はここまで。ではどうするか、というところでnoteを閉じたいと思います。次回のリンクは公開次第↓↓↓に貼っつけておきますので、まだしんどくないよと言う方はぜひ読んでやって下さい。それでは👋
第2回のリンクはこちら
飛ばして最終回はこちら
ご意見、ご感想は記事のコメント欄や各種SNSからお気軽にどうぞ↓
おまけ
おまけコーナーには毎回好きな曲を勝手に貼っています。ここをやりたいがためにnoteを書いていると言っても過言ではありません。
いつも奥田民生ばっかり貼ってるのでね、違う人も出していこうと思います。オリジナルのMVも公開されてるんですが、ストリングスが鳴っている方が好きなのでこっちを。歌詞中に何度か登場する「すばらしい日々」はそういうことだと思ってます。
#野球 #プロ野球 #セイバーメトリクス #NPB #フレーミング #キャッチャー