見出し画像

K-BB%とK/BBを比べてみた

いつもご愛読ありがとうございます。
今回は中井(2年/金沢大附)がお送りします。
鬼のNote長ことてらし(寺嶋アナリスト/2年/お茶の水女子大附)の決めた投稿割では、実のところ中井の投稿はもっと前だったのですが、書いておりません。
なんなら、一度も書いたためしがありません。

そろそろ書かないと鬼のNote長の雷が落ちそうなので書きます。
今回のテーマは投手指標です。
かれこれ10年近く前にデータで楽しむプロ野球でセイバーメトリクスに出会い、それが高じてここにいる自分にとっては極めて自然な記事の内容です。アナリストNoteは爆笑必至の記事も少なくないですが、アナリスト内では滑りキャラで、滑るたびに中島さん(3年/開成)と修吾(片山アナリスト/2年/筑波大駒場)にあたられてる中井は、真面目に考察していきます。


K/BBとK-BB%とは何か

前提として、K/BBとK-BB%のそれぞれの定義を確認しておきます。(詳しい方は読み飛ばしていただいて結構です。)
K/BBは意味的には「1つの四球を与える間に平均的にいくつ三振を奪うか」を表す指標で、

奪三振数/与四球数

で計算されます。セイバー系統の指標を「奪三振、与四球、被本塁打で計算される指標」と定義するのであれば、その中では比較的メジャーな投手指標と言えるのではないでしょうか。
一方で、K-BB%は意味的には「三振と四球の確率の差」を表します。計算方法は

(奪三振数- 与四球数)/対戦打者数

となります。こちらはK/BBと比べて知名度に関しては今ひとつな面がありますが、セイバーメトリクスの世界では有効性がよく指摘されています。例えば、インターネット上には以下のような記載もあります。

比ではなく差を用いることにより、分母である与四球が少ないと極端な数字になりやすいK/BBの欠点を克服している。

ESSENCE OF BASEBALLより

K/BBの問題点(後述)が指摘されていることから、今ではこっちの方が主流な気がします。

K/BBの問題点

K/BBの問題点としてはよく指摘されている点として、四球数が少ない場合、少しの四球数の変化に過度に敏感に反応することがあげられます。
最近アマ野球であった好例として、今春の関西学生野球連盟の金丸投手(関西大→中日ドラゴンズ)の成績が挙げられます。金丸投手の今春の成績は以下の通りです。

1勝1敗 防御率 0.00
投球回 39
打者数 128
奪三振 52
四球 3
自責点 0

関西学生野球連盟ホームページより筆者作成 

この投手を相手に開幕戦から勝ち星を上げた西の名門大学に敬意を表しつつ見てみると、このシーズンの金丸投手のK/BBはなんと17.3となっています。(今季のプロ野球における最高値は規定到達者に限ると菅野投手の6.94、最低値は床田投手の1.94であることを考えれば相当に傑出した数値です。)このとき、仮に金丸投手の四球があと1つ少なければこの数値は26.0、あと一つ多ければ13.0になっていたことになります。K/BBは上に書いた通り1桁程度の値になることを考えると、少し与四球数が変化しただけで大きく値が変化することは問題点であると言えます。

この問題点はK-BB%では解消されており、今春の金丸投手のK-BB%は38.2%ですが、仮に四球が1つへると39.0%、1つ増えると37.5%となります。(四死球数の増減に伴う対戦打者数の変化は無視しました。)30%台後半の数値に対して1%程度の変化となると、大きく変化しているとは言えないでしょう。
この点では明らかにK-BB%は優れた指標と言えるでしょう。

またこれに関連する他の問題点として、分析者目線では与四球数が少ない場合極端に大きな値を取ることから分析がしにくくなるという問題点があります。野球分析の記事を見ていると多くの場合相関係数を取っていますが、統計学的に相関係数は外れ値がある場合影響を大きく受けることが知られています。
また、相関係数自体「関係性の強さ」を表す量というよりも「直線的関係性に対する乖離度合い」を表す量ですが、例えばK/BBと防御率の相関を考えると、K/BBが極端に大きい投手でも防御率は極端に小さくはならないため(防御率が1点代前半になる選手は、NPBの歴史を見てもほとんどいません。)、相関係数が必要以上に小さくなる可能性があります。

結局、K-BB%と比べたK/BBの問題点はこの2点に集約されると考えます

1 . 四球が少ない投手では、多少の数値変化で大幅に数値が変化する
2. 外れ値が出やすい(ため、分析に使いにくい)

1の問題は不可避です。特に少ない試合数から分析する必要のある我々学生野球のアナリストにとっては致命的問題とさえ言えます(今秋の東京六大学野球で投球回が最大の投手は早稲田大学の伊藤樹投手ですが、それでも60回とプロ野球の規定投球回の半分にも満たない数字です)。つまり、学生野球に関してはK-BB%の方が優れていると考えて良いでしょう。
ですが、2の問題はその解釈にどれほどの影響があるものか再考の余地はあると考えます。
この記事では、ある程度のデータ量が担保されるプロ野球のデータを対象にK/BBとK-BB%を比較してみます。

防御率との関係性を考える

散布図を書いてみる

手始めに、防御率とK/BB、防御率とK-BB%の散布図を作ってみます。
以下の分析では、2015~2024年の10年間において、NPBで各年に143イニング以上を投げた投手(120試合制の短縮シーズンだった2020年を含む)のべ199名を対象とし、各点は各投手・年度の成績の対応しています。なお、ポストシーズンはデータから除外しています。
また、図表ではERAという言葉が出てきますがこれは防御率のことを指します。
散布図は以下の通りとなります。

図1 K/BBと防御率の関係
図2 K-BB%と防御率の関係

図1にある、K/BBと防御率の関係性はK/BBが6を超えている選手が他のデータと違う傾向を出しています。(これらの選手に限れば無相関と言って良いでしょう。)なお、全体での相関係数は-0.484です。それなりの相関といったところでしょうか。※1
図2にある、K-BB%と防御率の関係性は特に外れ値もなく、「そこそこ負の相関がある散布図」という感じがします。実際、相関係数は-0.506です。Deltaの説明を見ると、K-BB%がK/BBの代替であるように説明されていますが、データ数さえ担保できれば、防御率に対する説明性に関してあまり差がなさそうな印象を受けます。

K/BBがうまくいかないのは、外れ値の問題ではないか?

図1の散布図を見ると、K/BBはかなり大きな値(6以上※2)を取ると防御率との相関が失われているようにも見えます。なので、一度外れ値を除外して分析してみましょう。散布図は図3です。

図3 外れ値を除外したK/BBと防御率の関係

散布図の形状だけみると、図2に似た形になりました。相関係数を取ると-0.434となり、相関関係が小さくなりました。(どうしてでしょう。直線的な関係性を仮定したことがよくなかったのでしょうか。)

意外と差はない

色々検討してみましたが、一応の結論として「防御率との相関は、(少なくても規定投球回到達者に限ると)K/BBもK-BB%も大差ない」という結論に至りました。
相関係数0.5をどう捉えるかは難しいですが、特段強くない、とは言えるのではないでしょうか。

年度間相関を考える

散布図を書いてみる

セイバーメトリクスに明るい読者の方は、ここまでの中井の考察に違和感を持たれたかもしれません。そもそもK/BBやK-BB%は年度間であまり変化しないことから(セイバーメトリクス的ないい方をすれば「運の要素を排除できるから」)成績予測に用いることができるため優れた指標であり、「運の要素」による影響を受けた防御率との相関性をとること自体ナンセンスである、という考え方ができます。(もっとも、防御率との相関が極端に高いわけではない指標の年度間相関が強いことに意味があるのか、という問題はありますが。)
と、言うわけで、年度間相関を考えてみます。これまでと同じデータセットを用いて、2年連続で143イニング以上を投げた投手、のべ80名のK/BBとK-BB%を、横軸にある年度、縦軸にその直後の年度の数値を取った散布図にかきます。その結果が図4と図5です。

図4 K/BBの経年比較
図5 K-BB%の経年比較

K/BBの経年比較の結果である図4を見ると、やはり外れ値が目立ちます。ただ、K/BBが6以上だった選手は翌年も6を超えるケースはこの散布図上ではないため、平均への回帰が起こっていることが推測されます。※3
この点、成績のいわば「上振れ」による外れ値のでやすさという問題点は、K-BB%と比べて顕著である、という定説は妥当であると判断できそうです。
なお、相関係数は0.531となります。防御率との相関よりやや強くなりました。同様にK-BB%の経年比較結果である図5に対しても計算すると、0.605となります。
ここにきてK-BB%がやや優れている面が見えてきました。翌年度の予測能力という点ではK-BB%の方がやや優れていると言えます。
ですが、「そもそも外れ値を取っているのであればK/BBを見るのをやめれば良い」という考え方もできます。では、K/BBが6以上の外れ値をとった選手を除外して、図4と同様の図を書いてみます。図6になります。

図6 外れ値を除外したK/BBの経年比較

悪くはない相関がありそうな気配があります。相関係数を計算してみると、0.570となります。若干ですが上昇して、K-BB%の相関係数に近づきました。そうとはいえ、外れ値をわざわざ除外してもK-BB%と比べて同程度~やや低い程度の精度での予測となるのであれば、K-BB%を使うということで良さそうです。

余談:防御率の経年比較

ここまで経年比較をしてみましたが、せっかくなので同条件で防御率の経年比較をしましょう。手始めに散布図を書くと、図7のようになります。

図7 ERAの経年比較

こうみると、相関があまり強くなさそうです。実際相関係数は0.348となっており、あまり強い相関とは言えません。K/BBやK-BB%の方が年度間相関が高いことは間違いないようです。

成績予測においては、K-BB%の方が優れている

これを踏まえると以下のことが言えそうです。

翌年の成績の予測能力では、K-BB%>K/BB>>防御率という関係になる。

こう思うと、この面ではK-BB%がK/BBと比べてセイバーメトリクスの文脈で広く用いられていることにも納得がいきます。

結論

定説を疑うことは大事だが、だいたい定説は正しい

今回もありがとうございました。次回もお楽しみに!

中井一心(2年/金沢大附)

(注)
※1 プロ野球のデータで外れ値が出るのか、と懸念される読者もいらっしゃると思いますが、K/BBの分布を描いたヒストグラムを見るとかなり極端な値もあることがわかります。これをみると、外れ値は存在しているといってよいでしょう。

図8 K/BBのヒストグラム

※2 このデータの平均値は3.39、標準偏差は1.37なので、概ね2σ区間の外側のデータを除外していると言えます。
※3 直近で2年連続でK/BBが6を超えた選手は、2011年,2012年の田中投手(当時楽天)で、8.93→8.89となっています。