
ライナーとフライの打球速度と欠損値
前回の分析では、ゴロの打球データに欠損値の生じやすい打者を探してみました。今回はライナーとフライについて、少し違う角度からデータを見ていきたいと思います。
ライナーとフライの欠損値
ライナーとフライの個人成績は、前回見たゴロとは欠損値の生じ方にいくつか違いがあります。大きな特徴として、ライナーとフライの欠損率の年度間相関が認められないという特徴があります。前々回に示した相関関係を改めて以下の図1-1と図1-2に示します。
これは前年の欠損率と翌年の欠損率の間には特に関係が認められないことを示すものです。ゴロの場合は、2年から3年連続欠損率が一貫して高い打者がいましたが、ライナーとフライの場合は、そうした打者はいたとしてもごく少数であることを示します。
次に、同じデータから前年の欠損率と翌年の欠損率から前年の欠損率を引いた値の関係を見てみます。データを以下の図2-1と図2-2に示します。
強い負の相関が認められるデータです。この結果は、前年の欠損率が高いと翌年は低下する傾向にあることを示します。
この傾向はBABIPという指標でも見られるもので、データ欠損の一過的な偏りが翌年には平均並みに回帰していると考えられます。
2人の打者を例に
ライナーとフライの欠損は、何か原因があるというよりは一過的な要素によって左右されるという特徴がありそうです。では、ライナーとフライの欠損がシーズンを挟んでどのように変化するかを2人の打者を例に見てみたいと思います。データを以下の図3-1-1と図3-1-2に示します。
2017年のJacob Ryan選手のライナーとYulieski Gurriel選手とフライの打球速度の分布になります。グレーで表した部分が欠損値を補填したデータになります。この2人を選んだのはライナーとフライの欠損率がそれぞれ高かったためです。
それでは、2人の打球速度の分布とデータの欠損が2018年にはどうなったかを以下の図3-2-1と図3-2-2に示します。
Jacob Ryan選手のライナーの欠損は0に、Yulieski Gurriel選手とフライの欠損は1と大幅に減少しました。図1や図2の傾向を個人でも確認できました。
Statcastのシステムとデータから知りたいこと
このように、ライナーとフライについては、データの欠損は一過性のものという特徴が表れています。また、欠損率自体もゴロやポップフライと比べると低いものです。したがって、全く無視しても良いとまではいえないものの、打者のパフォーマンスをゆがめる要因としては弱いのではないかと考えます。
Statcastのシステムとして欠損値となったデータが、実際にどのような値だったかは非常に気になるところです。しかし、Jacob Ryan選手のライナーやYulieski Gurriel選手のフライの打球速度の分布のデータを見たとき、このデータから知りたいのは、欠損値の無い観測データではなく、そこから推測される2人の打球速度の能力を表す分布だと思います。
少し補足すると、打者を評価したい場合、その打者がどのような能力を持っているかを知る必要があります。しかし、人間の能力を直接見ることはできませんので、アウトプットされたデータから判断する必要があります。
今回の場合、2人の打者はどれくらい早い打球が打てるのかを知りたいと考えます。この能力を見ることはできません。そこで、Statcastのシステムから計測されたデータから判断するわけです。
ただし、観測されたデータ=能力ではないということには注意が必要です。図を見ると、分布のデータは波を打ったような形をしていますが、例えば90m/hの打球をたくさん打つ能力を持った打者が、91m/hの打球を打つのは苦手で、92m/hの打球を打つのは得意といったような能力を持っているとは考えにくいと思います。観測されたデータが波を打ったような形をしていても、打者の能力はもっと滑らかな分布をしていると考える方が自然です。
打球速度の分布はどんな形をしているのだろう?
こうした打者の持つ能力を考えるとき、ライナーとフライにおいてはその性質から、欠損データはそれほど重要ないのではないかと考えます。欠損の無い完全な観測データでなくても、ある程度欠損はあっても、そこから打者の持つ能力を表す分布を推定できれば十分ではないかというわけです。
この推定には統計的な手法が必要になりますが、単純に長期間のサンプルを積み上げるという方法でも、いくらかは迫ることができます(長期間にわたりプレースタイルが大きく変化していないという前提が必要になりますが)。
そこで、2人の2015年以降のデータを累積したものを以下の図3-3-1と図3-3-2に示します。
Jacob Ryan選手は5年、Yulieski Gurriel選手は4年分のデータになります。大分滑らかになりましたが、まだ波打つような分布となっており、やはり統計的な推定が必要なのではないかと思います。それでは、打者個人の打球速度の分布はどんな形をしているのでしょうか?
図4-1に示すように、正規分布の山を1つ想定すればよいのでしょうか?
それとも、図4-2のように打ち損じを踏まえた二峰分布のような形を想定すべきなのでしょうか?
これは現段階ではよくわからないなぁというのが正直なところです。打者によって違う可能性も考えられます。これから検証が必要なテーマだと思うのですが、欠損値をそれほど気にする必要がなさそうというのは良い情報かと思います。
おわりに
以上、2人分のデータをざっと眺めただけですが、ライナーとフライについては、打者の能力を評価する際に、欠損値に歪められて実態を把握するのが難しいという事態にはならないのではないかと思います。
この分布を推定することができれば、日々のパフォーマンスの調子の良し悪しや、成長や衰えのような変化を判断するのに役立ちそうです。全員が全員同じ分布をしている必要はないので、まずは1人ポンと作ってみるのもアリかもしれません。
それでは、今日はこんなところで。
タイトル画像:いらすとや