見出し画像

パークファクターから選手のバイアスを減らしたい

 野球のデータを扱う際に、パークファクタ―(Park Factor、以下PF)というものを考えることがあります。これは球場ごとの様々な差異を補正するための数値のことです。よく補正が掛けられるのは本塁打数、得点数、球速などです。本投稿では球速(ストレートのみ)を例に、従来の算出方法にまつわる議論をおさらいしたあと、さらに選手の差異を取り除く補正方法を検討します。


よくある算出方法

 PFの算出方法については、こちらのサイトが大変分かりやすく解説されています。

 PFの算出方法で調べると、まず出てくるのは
(当該球場での平均球速)÷(当該球場以外の平均球速)
 という計算式です。Wikipediaでもそうですし、NPBのデータ会社であるDELTA社でも、3月12日まではそうしていました。

 この計算式では、その式の意味そのものである「当該球場以外と比べて、当該球場の球速はどれくらい速く(または遅く)記録されがちか」ということが分かります。しかし、最初のサイトを読み進めていただくと分かりますが、この計算式は使い勝手があまりよろしくありません

 PFが2球場のみの比較のために算出されることはあまりなく、実際は全本拠地をまとめて算出することが多いです。その数値を用いて、球場同士の比較をすることになるのですが、上述の計算式だと、分母の(当該球場以外の平均球速)が当該球場ごとに異なります。そのため、同じ尺度で測れておらず、数値の大小を見ることには意味がなくなってしまいます。

算出方法(修正版)

 そこで、球場ごとの比較をしやすくするためには、計算式を
(当該球場の平均球速)÷(各球場の平均球速の平均)
とする必要があります。分母を(全球場の平均球速の平均)とすることにより、異なる球場でも同じ尺度で測ったことになり、数値の大小を見ることが可能になります。例えば、神宮のPFが1.03、東京ドームのPFが1.05ならば、「神宮よりも東京ドームの方が(1.05/1.03)倍速く記録されがち」と胸を張っていえるようになります。

 DELTA社でも3月13日より、この計算式に変更されました。

算出における注意点

 それでは実際に、2023年NPBレギュラーシーズンのデータを用いて、各本拠地におけるストレート平均球速のPFを算出してみます。データはスポナビ様の一球速報を集計したものを使います(球速が記録されていないものを除く)。球速は同じ球場でも、投手の左右により、1と比べた補正値の大小が逆転することがあるので、球場ごとに左右に分けて算出します。交流戦・地方球場の試合は集計対象外です。今回はパ・リーグで話を進めますが、セ・リーグでも同様の方法で行います。

 ここで注意点としては、パ・リーグの本拠地全球場で登板した投手のみのデータを扱うことです。PFは選手の差異が球場の差異に混ざることを防ぐため、同じ投手のデータを用いて補正値を算出します。例えばPayPayドームなら、PayPayドームで登板があった投手のみのPayPayドームでの平均球速と、全本拠地での平均球速の平均との比を取ります。

 ここでやりがちなのが、本拠地ごとに違う投手のデータを使うことです。これは各本拠地単体で見れば問題はないですが、各本拠地の差異に選手の差異が混ざるため、本拠地ごとの公平な比較ができません。

 そこで、全球場で登板した投手のデータのみを用いるというわけです。そうすることで、選手の差によるバイアスを減らせます。しかしあくまで減らせるだけで、完全になくなるわけではありません。この点については後述します。

投手が1人のみだったら

 まずはPFの導出のイメージを掴むために、投手を1人だけに絞って見てみます。今回は千葉ロッテの小島和哉投手のデータを使います。2023年レギュラーシーズンにおける、小島投手のパ・リーグ各本拠地平均球速と、投球数は以下のようになります。

表1 2023年小島和哉投手平均球速・投球数

 PayPayドームが唯一の146km/h台です。投球数は当然ながらZOZOマリンスタジアムが最も多く、ベルーナドームは27球と少ないです。全本拠地の平均球速は、本拠地ごとの割合を均等にするために、各本拠地の平均球速の平均を取っています。これをもとに、ZOZOマリンスタジアムのPFを算出してみます。

 計算式の分子である(当該球場の平均球速)は、今回はZOZOマリンスタジアムなので、表から144.9194915km/hです。分母の(各球場の平均球速の平均)は144.495616km/hとなります。

 従って、小島投手のみで考えたZOZOマリンスタジアムのPFは、
144.9194915÷144.495616=1.002933484
 となります。同様にして各本拠地のPFを算出すると、以下の通りです。

表2 2023年パ・リーグ本拠地別PF(小島和哉投手のみ)

投手数を増やす

 小島投手に限定したPFが算出できたので、次は投手数を増やします。2023年にパ・リーグ全本拠地で登板した左投手は15名いるので、まずは大雑把にこの15名のデータを合算して1人の投手とみなし、先ほどと同様の作業を進めてみます。

表3 2023年パ・リーグ本拠地別平均球速・投球数(左投手15名)

 小島投手のときと同様、それぞれの本拠地の平均球速を各本拠地の平均球速の平均で割っておしまいでもよいのですが、ここではもう少し厳密さを追求します。

 先ほどの表の数値には、あるバイアスが潜んでいます。それは、各本拠地における投手ごとの投球数の割合が異なるということです。

 例えば、A、B、Cという3名の投手がいるとします。PayPayドームでは、この3名がそれぞれ1/3ずつの投球数を投げました。しかしZOZOマリンスタジアムでは、投手Aの投球数が全体の2/3を占め、BとCの投球数がそれぞれ1/6だとどうなるでしょうか。

 この場合、ZOZOマリンスタジアムにおけるA投手の影響は、PayPayドームにおけるそれよりも大きくなってしまい、投手の差異が球場の差異に混ざってしまいます。例えばA投手が平均よりも球が速い投手だったら、ZOZOマリンスタジアムのPFも過大評価となります。同じ選手のデータを使用しても、選手の差によるバイアスが完全になくなるわけではないと言ったのはこのことです。

投球数の割合の差異による平均球速のずれ


 そのため、より厳密なPFを求めるには、各本拠地での投球数の割合を等しくする調整を行います。そこで用いるのが、全本拠地を合計した投球数の割合です。

 投球数の割合が各本拠地ごとに異なるのは、どの投手も基本的に所属球団の本拠地で多く投げるからですが、それを除けば、全本拠地を合計した投球数の割合は、各本拠地のそれとある程度相関することが予想されます。そのため各本拠地での投球数の割合を、全本拠地を合計した投球数の割合で統一すれば、投手の差異を除きつつ、元の平均球速とはまるっきり異なる平均球速が算出されることも防げると考えました。
 全本拠地を合計した投球数の割合は以下の通りです。

表4 2023年パ・リーグ投球数(左投手15名)

 これをもとに、各本拠地の平均球速を調整します。例としてZOZOマリンスタジアムを見てみます。

表5 2023年投手別平均球速・投球数(左投手15名・ZOZOマリンスタジアム)

 表5を見ると、小島投手の投球割合は約0.359であり、表4の全本拠地における投球割合約0.156よりも高くなっています。このままでは、ZOZOマリンスタジアムのPFに小島投手の影響が強くなってしまうため、各投手の平均球速に、全本拠地での投球数割合を掛けて合計します。その結果、ZOZOマリンスタジアムの平均球速は146.5514395km/hとなり、表3の146.3376426km/hよりも少しだけ速くなりました。

 以上の作業を全本拠地に対して行った結果が以下の通りです。

表6 2023年パ・リーグ本拠地別PF(左投手)

 全本拠地の平均球速は、これまでと同じように各本拠地の平均球速の平均を取っています。各本拠地の平均球速を全本拠地の平均球速で割ることで、PFも算出できました。2023年のパ・リーグ左投手では、PayPayドームでは平均して0.9%ほど球速が速く計測されがちだったということです。

2023年PF

 右投手並びにセ・リーグについても、同様の手法でPFを算出した一覧が以下の表になります。比較のため、投球数割合を補正しなかったPFも載せます。

表7 2023年本拠地別PF(投球数割合補正
表8 2023年本拠地別PF(投球数割合補正

 セ・リーグではマツダスタジアム・東京ドームの左投手、神宮の右投手、パ・リーグではエスコンフィールドの左右両方、楽天モバイルパーク宮城・ベルーナドームの左投手、ZOZOマリンスタジアムの右投手で、補正値が逆転しています。最も差が大きいのは神宮の右投手で、0.011331409(約1.1%)大きくなりました。

 そこで、神宮の右投手の内訳を見てみます。表9は、セ・リーグ右投手のPF算出に使用した46投手の神宮での平均球速、投球数とその割合を示しています。比較のため全本拠地での投球数割合も追加しています。

表9 2023年投手別平均球速・投球数(右投手46名・神宮)

 これらの投手における2023年の神宮での投球数上位2名は、小澤怜史投手(約13.9%)と小川泰弘投手(約12.2%)でした。この2投手の平均球速はそれぞれ約140.4km/h、約142.3km/hであり、神宮における全投手の平均球速である約146.2km/hを下回っています。そして、この2投手の全本拠地での投球数割合は、小澤投手が約3.9%、小川投手が約4.7%でした。すなわち、小澤投手と小川投手の影響などにより、補正前の神宮での平均球速が過小評価され、PFも小さくなっていたということです。実際、補正後の平均球速は約148.1km/hとなりました。

投球数割合補正は必要か

 投球数割合の補正前と補正後でそれなりに値が変化するのは、各投手の各本拠地における投球数が不十分であることに起因します。仮にどの投手がどの本拠地においても、十分にたくさん投げていたら、投手ごとの差異の影響は小さくなるのですが、たかが数年のデータではそうはいきません。そのため、基本的には投球数割合を補正したPFを使う方が安心かと思います。

 しかし、この投球数割合補正にも問題はあります。例えば、全本拠地で10%の投球数を投じている、平均148km/hのA投手がいるとします。しかしこのA投手は、B球場では1球しか投じておらず、しかもその1球は転んで130km/hでした。

 この1球はA投手にとってはいわゆる外れ値ですが、投球数割合補正を掛けた場合、この1球に10%の価値が与えられます。これにより、B球場の平均球速にA投手の本来の球速とはいえない130km/hが影響し、B球場の平均球速は過小評価となります。

 これを防ぐには、予め今回のA投手のような投手がいないかチェックし、いた場合には集計対象から外す必要があります。

PFの信頼性

 今回得られたPFを私たちはどこまで信頼してよいのでしょうか。

 投球数割合補正前の各本拠地での平均球速は全投手を1人の投手とみなした、すなわり同一母集団からのサンプリングとみなした値から算出していると考えることができるので、真の平均球速の信頼区間を算出できます。ここでは例として、PayPayドームにおける左投手の真の平均球速の95%信頼区間を算出してみます。

 観測された平均球速は147.258512km/h、サンプルサイズ(投球数)は793で、表3の通りです。分散は11.558087でした。従って、95%信頼区間は(147.021886、147.495138)となり、区間幅は0.473252です。仮に各本拠地の平均球速の平均は変わらなかった場合、PayPayドームのPFは1.008571から1.011817ぐらいのぶれは十分に考えられるということです。今回は1よりも大きいことは変わりませんでしたが、PFがほとんど1であるような本拠地では、球速が出やすい、出にくいと結論づけるのは難しいです

 今回私は2023年のデータしか使いませんでしたが、それは単に私が2023年のデータしか持っていないからで、基本的に年数は増やせるだけ増やした方が、PFはより信頼できるものになります。年数を増やせば、今回対象とした投手の投球数を増やせるだけでなく、全本拠地で投げた投手自体も増やせます。例えばオリックスの田嶋大樹投手は、2023年はベルーナドームで登板していないため集計対象に含めることができませんでしたが、2020年まで遡ればこの年は2試合登板しているので、追加できます。

 しかし、年数を増やす上でいくつか注意も必要です。まずパ・リーグでは、札幌ドームとエスコンフィールドを別の球場として扱う必要があります。そのため、どちらか一方の球場でしか投げていない投手は、逆に集計対象から外れます。金子千尋投手なんかがそうです。それでもメリットの方がはるかに大きいのは言うまでもないです。

 加えて、年度を跨ぐと球場の特性そのものが変わる可能性があります。例えば球速なら、計測機器が変われば球速の出やすさも変わる可能性は大いにありますし、本塁打ならPayPayドームのホームランテラスやZOZOマリンスタジアムのホームランラグーン設置前後では、PFも変わることが予想されるので、別の球場として扱うべきだと思われます。

まとめ

 計算式の分母を全球場にすべきでは?という指摘は、最初のサイトの他にも早くから言われており、分母を当該球場以外とする計算式はいずれ使われなくなると思います。おそらく2球場のみの比較から拡張して考えたために、不便な計算式が使われていたのではないでしょうか。

 今回は球速を例にしましたが、本塁打や得点でも同じような補正を掛けることは可能です。例えば本塁打なら、神宮では東京ヤクルトスワローズがおおよそ1/2、残りの5球団がおよそ1/10ずつ攻撃しているので、このままでは東京ヤクルトの影響が強くなってしまいます。全球場を合計すると6球団がそれぞれ1/6ずつ攻撃していると考えられるので、各球場でもその割合で計算すべきです。

 本塁打のPFは1試合当たりの本塁打数で算出されることがほとんどですが、算出の過程において地方球場を除いているため、厳密には試合数は6球団で均等になりません。もっと言えば、仮に試合数が同じでもイニング数は異なるし、イニング数が同じでも打球の数が異なります。できる限りずれをなくそうとすると1打球当たりの本塁打数を算出することになりますが、面倒かつ分かりにくいですし、基本的には1試合当たりの本塁打数で十分だと思います。ただ、ホームランのような稀なイベントで単位を試合にするとサンプルサイズが気になるところですが、今回のような補正を掛けるようにすれば、どの球場でも全球団のデータを使うことができるため、信頼性の向上につながるかもしれません。

 ちなみにPFに限らず、野球の成績を扱う上では、自球団の選手とは対戦しないという前提があることは頭に留めておく必要があります。今回の球速は例外的に、打者が誰であるかの影響を大きく受けるとは考えにくいので、この問題を無視できました。
 それでも例えば、補正を掛けた値でタイトル争いなんかされたら正直冷めますし、選手ごとに条件が異なることも面白味の1つであると思うので、仮に補正の余地があっても、補正を掛けるべき場面かどうかは慎重に考えるべきだと思っています。


 最後まで読んでいただきありがとうございます。今回は素人の趣味が高じた成果物に過ぎず、計算の正しさも保証できません。それでも1人で考えているだけでは気づけなかった誤りや視点が欲しく、拙いながら初投稿とさせていただきます。

いいなと思ったら応援しよう!