代打は有効策ですか~プロ野球データ分析
こんにちは!!
ヘッダーは「代打満塁HRを打ったハッセ&大喜びの甲斐拓也」。というわけで!今回の記事は代打に関するプロ野球データの分析です!
(この記事の続きです)
野球ファンならきっと思い出せる,桧山進次郎現役最終打席の代打HR。(鷹ファン的には2011CSの松中代打グランドスラムも思い出深いですが!)
代打にたまに起こるこういうドラマ。野球の神様っているんだなと思う瞬間ですね。
とはいえ,こんな奇跡めったに起きません。打者は3割打てば良い方なのですから,凡退することの方が全然多いわけです。途中から試合に入る難しさ,守備のできる選手を変えるというリスクもあります。
すると,「ほんとに代打って意味あるんかな?」という疑問が浮かびますよね。
というわけで,代打を出すと得点が入るのか?何点入るのか?それとも全然意味がないのか??2020年のプロ野球のデータで調べました!
代打を出すと,何点取れる?
代打を出したイニングと出さなかったイニングの得点の平均を比べると,その差は0.336点。ですがこれを「代打の効果」とするのは,統計的に問題がありそう。
そこで,チームの違いとか打順とかその他の要因を考慮して分析しました。(分析手法が気になる方へ;詳細はおまけの章に!)
その結果がこちら!
代打の効果は0.4点くらいと言えそうです!代打を出すと,代打を出さないときより(平均して)0.4点多く点が入るということになります。統計的にもかなり有意な結果でした。
無事,代打の有効性が示されました…!愛する仕事人たちの価値が証明されたのです。(拍手)
代打を出すと,〇〇%得点確率が上がる!
さて,こうして代打には意味があることがわかったわけですが。でも,0.4点ってすごい…?些細な差じゃない…?ちょっとわかりにくい気もします。
なので,得点確率つまり「(何点入るかは置いといて)代打を出して点が入るか否か」についても分析してみました。
代打を出したイニングと出さなかったイニングの得点確率の平均を比べると,その差は12.1%です。ですが(以下略),さっきと同様に色々要因を入れます。
結果がこちら。
代打の効果は15%くらいでしょうかね。言葉にすると,代打を出せば、出さないときより得点確率が15%上がることになります。ちなみにこれもかなり有意な結果です。
15%って結構じゃない??代打を出す意味は十分あると言えるように思います。(3%とかしか変わらんかったらどうしようかと思った。笑)
結論
以上より,代打は有効な策といえるでしょう!
まぁ,普通に打順で回る選手より打てる(と思われる)選手を出すわけなので、当然の結果かもしれませんが。ちゃんと結果につながっているということが立証されたのはなかなか良いことではないかな…!?
以前,好きな選手が代打で出てきたとき,後ろの席のおじさまが「なんで代打出すねん」とぼやいていて,「そんなことないもん…」と内心悔しかったということがあったのですが。データの裏付けを得たので,これからは胸を張って選手タオルを掲げようと思います。笑
なお、本分析は「代打を出した回に入る得点」を検証したもので,「代打の選手のタイムリーによる得点」だけではありません。
代打がつないで取った得点もあれば,代打は凡退したけど取れた得点もあります。代打って,気合を入れるとかネクストバッターズサークルで素振りしてプレッシャーかけるとか,そんな側面もあると思うんですね。そういうもろもろを含めた分析ってことにしてください…!
しかし残念なことに,「得点が入ってから代打が出された」局面もカウントしてしまっています。代打で選手替えたあとに守備がザルになって失点した,とかいう泣ける可能性も検証できていません。分析に限界は付き物ということで,悪しからず…。
それではまた。
とある女子大学院生。
おまけ:分析手法の話
データは2020シーズンの中で,ランダムサンプリングした30日に行われた試合の7回以降,846イニングです。データの詳細は冒頭に載せた前記事にて。
傾向スコアを使って,マッチング法とIPWを実行しました。
傾向スコアというのは,一般的にはトリートメントが起こる確率と言えばいいのかな。今回の分析で言うと,代打が出される確率ですね。ビハインドだと代打が出されやすいかも,チームがカープは代打が多くなる,西武だとあんまり出さない,という感じで。こういうのをたくさん考慮して,傾向スコアを求めます。
マッチング法とは。あるサンプル①が代打を出しているサンプルだとします。次に,代打を出していないサンプルの中で,サンプル①の傾向スコアに最も近いサンプル②を選んできます(最も近い順に複数個のサンプルを選んでくる場合もありますが,今回は1つ)。するとサンプル①と②は,めっちゃ似たような状況だけど,代打を出す・出さないという点だけ違う2つのサンプルということになります。つまりサンプル①と②は色んな条件が揃っているので,その2つの(得点の)差は,純粋に代打を出す・出さないの違いによる差なのだと言えます。この作業をいくつものサンプルに行うことで,代打と得点の因果効果が計れるというわけです。
IPWは,傾向スコアの逆数で重み付けして因果効果を推定する手法です。推定式はごく簡単なので,コードを見てもらうのが早いかと思います。
それぞれの結果はこんな感じ。シンプルな最小二乗法も試しています。
得点・得点確率ともに,単純な差では代打の効果を過小評価してしまっているのがわかると思います。
また,傾向スコアに比べてIPWが控えめな結果を出していますね。どの手法が正しいかはongoingで議論されているかと思いますが,「この場合はこれだよ!」とかあればぜひコメントで教えてください。
分析部分のコードはこちら~。
##得点について
#最小二乗法
olsres <- lm(point ~ pinchbatter + home+behind+even+top+H+M+L+E+F+G+B+C+D+S
+oH+oM+oL+oE+oF+oG+oB+oC+oD+oS+inning7+inning8+inning9)
summary(olsres)
#プロペンシティスコアを使ったマッチング
glmres <- glm(pinchbatter ~ home+behind+even+top+H+M+L+E+F+G+B+C+D+S
+oH+oM+oL+oE+oF+oG+oB+oC+oD+oS+inning7+inning8+inning9, family=binomial,data=data)
PropencityScore <- glmres$fitted
matchres <- Match(Y=point,Tr=pinchbatter, X=PropencityScore,M=1)
summary(matchres)
# IPWの実行
attach(data)
IPW_on_pinch <- pinchbatter * point / PropencityScore
IPW_on_nonpinch <- (1-PropencityScore)* point / (1-PropencityScore)
mean(IPW_on_pinch - IPW_on_nonpinch)
##得点確率について
#最小二乗法
olsres <- lm(point_dummy ~ pinchbatter + home+behind+even+top+H+M+L+E+F+G+B+C+D+S
+oH+oM+oL+oE+oF+oG+oB+oC+oD+oS+inning7+inning8+inning9)
summary(olsres)
#プロペンシティスコアを使ったマッチング
glmres <- glm(pinchbatter ~ home+behind+even+top+H+M+L+E+F+G+B+C+D+S
+oH+oM+oL+oE+oF+oG+oB+oC+oD+oS+inning7+inning8+inning9, family=binomial,data=data)
PropencityScore <- glmres$fitted
matchres <- Match(Y=point_dummy,Tr=pinchbatter, X=PropencityScore,M=1)
summary(matchres)
# IPWの実行
attach(data)
IPW_on_pinch <- pinchbatter * point_dummy / PropencityScore
IPW_on_nonpinch <- (1-PropencityScore)* point_dummy / (1-PropencityScore)
mean(IPW_on_pinch - IPW_on_nonpinch)
ここまで熱心にお読みいただいた皆さん,改めてありがとうございました!!