
個人成績から見たStatcastデータの欠損
データを見る視点を変える
これまでのStatcastデータをリーグ全体という視点から整理してきました。今回からは視点を変えて、個人成績の観点からデータを見ていこうと考えています。
欠損値はどう関わるか?
「この選手の打球の速度と角度の分布はこうなっている」というデータを見ていきたいわけですが、その前にタイトルにもあるようにデータの欠損値が気になります。
Statcastでは全ての打球の記録があるわけではなく、時にデータの欠損が生じます。その際、特定の値でデータを補填するという作業を行っています。
リーグ全体でデータを見た場合、全体の何%が欠損を補填した値になるわけですが、個人の成績から見た場合、このデータの欠損はどのような形となるでしょうか?
いくつか可能性が考えられます。
仮説1.欠損の生起頻度は運の影響によって左右されるところが大きい。
仮説2.欠損が生じやすい選手と、そうではない選手が存在する。
データの欠損が、選手にはコントロールできず運によって左右されるのであれば、それを受け入れるしかありません。“データが欠損しやすい”特定の選手がいるのであれば、その原因を探る必要があります。
この仮説を検証するために、今回はStatcastデータを打者個人ごとに集計し、データの欠損率の年度間相関を求めました。
年度間相関とは、シーズン間の成績の相関係数を求めた値になります。データの欠損が運によって決まるのであれば、シーズン間の値に相関が認められないという結果となります。一方、年度間の相関が認められれば、あるシーズンのデータの欠損率は、翌年も同じような欠損率になる可能性が高く、この場合データが欠損しやすい打者が存在すると考えられます。
欠損率の分布の確認
年度間相関を確認する前に、シーズンでのゴロ・ライナー・フライ・ポップフライの打球数と、打球ごとのデータの欠損率を確認したいと思います。まずはゴロのデータを以下の図1-1に示します。
この図は右に行くほどゴロの数が多く、上に行くほどデータの欠損率が高いことを表します。
ゴロの数が少ないと、欠損率は0%から100%まで幅広く値を取りますが、ゴロの数が増えると欠損率は0%から20%の範囲に多くが分布しています。
次に、ライナーとフライのデータを図1-2と図1-3に示します。
どちらも図1-1のゴロと比較すると欠損率は全体的に低くなっています。
最後にポップフライのデータを以下の図1-4に示します。
ポップフライの欠損率は高く、これまでの打球と特徴が異なります。ポップフライの数が増えてくると、大体50%程度に収束していきます。
年度間相関を求める
それでは、年度間相関のデータを以下の図2-1から図2-4に示します。この分析には、各シーズンでゴロ・ライナー・フライのケースがそれぞれ50以上、ポップフライは25以上の記録のある打者が対象です。
この中では、図2-1のゴロのみ弱から中程度の正の相関関係が認められました。他の3つは無相関といえる結果です。
犠打を除いてゴロを再度分析
ゴロのみ年度間の相関が認められたという結果ですが、このゴロの中には犠打が含まれます。そして、上記のリンク(Statcastデータの欠損と補填)より犠打はデータの欠損が生じやすいことを確認しています。
MLBでは犠打はそれほど多くはありませんが、図2-1のデータは、犠打の多い打者のデータの欠損が、翌年も犠打が多いために欠損も多く、結果として相関が高くなっている可能性も考えられます。そこで、ゴロの記録から犠打を抜いて分析したものを以下の図3-1と図3-2に示します。
図1-1と図2-1の犠打ありのデータとそれほど変わらない結果です。したがって、この傾向は犠打によるものではないと考えることができます。
まとめ
以上の分析より、データ欠損の性質は打球によって異なり、ゴロは年度間の相関が認められたことから、仮説2の欠損が生じやすい特定の打者が存在すると考えられます。他の打球の場合は、仮説1のデータの欠損は運によって左右されるために、シーズン間の欠損率が安定しないと考えられます。
どうもゴロについては、データの欠損率は「たまたまこうなった」とはいえないようです。この性質は検証する必要があります。
タイトル画像:いらすとや
参考資料:一般的指標の年度間相関の分析結果