Statcastデータのグラウンド上での位置
今回のテーマはStatcastデータをグラウンド上にプロットし、その特徴を見てみようというものです。データが欠損しやすい場所がグラウンド上にあるのだろうか?ということを検証するのが目的です。
グラウンド上の打球の位置は、Statcastデータにあるhc_xとhc_yという座標データを用いました。
※筆者の誤解でhc_xとhc_yが手動入力のデータと表記していました。お詫びして修正しています。
データは2015年から2019年までのStatcastデータから、ゴロ(GB)、ライナー(LD)、フライ(FB)、ポップフライという打球別に、安打になったケースとアウトになったケースでそれぞれの打球位置をプロットしています。
ゴロの観測値と欠損値
最初に見るのはゴロからです。まずは安打になったゴロについて、観測されたデータと欠損データをそれぞれプロットしたものを以下の図1-1に示します。
黒のラインが一塁と三塁線になります。このラインの座標は参考文献を参照しました。末尾にリンクをつけておきます。
図の見方ですが、左側が観測値で右側が欠損値のプロットになります。水色から赤へと変化していくごとに打球数が多いことを表します。
欠損値のプロットを見ると、三塁線の本塁近く、捕手が処理するような位置のゴロに欠損値が多いことを確認できます。実際の映像と照らし合わせる必要がありますが、勢いの死んだ打球が欠損しやすいのかもしれません。
続いて、ゴロアウトのプロットを以下の図1-2に示します。
アウトになったゴロの場合、図1-1で見たような欠損値が多いところというのは確認できません。
ライナーの観測値と欠損値
続いて、ライナーのうち安打を図2-1、アウトになったケースを図2-2に示します。
ライナーは欠損値自体も少ないのですが、欠損値の位置も特に偏ることなく散らばっていることを確認できます。
フライの観測値と欠損値
次はフライの安打を図3-1、アウトを図3-2に示します。
安打になったフライでの欠損値はなかったため、図3-1は観測値だけになります。欠損値のプロットについては、ライナーと同じく特に偏りはないことが確認できます。
ポップフライの観測値と欠損値
最後にポップフライの安打を図4-1、アウトを図4-2に示します。
ポップフライの安打自体が少なく、さらに欠損値はなかったため、図4-1は観測値だけになります。
図4-2の観測値と欠損値を比較すると、観測値は内野手の定位置から少し後方が多いことを確認できます。一方、欠損値ではファールグラウンドを含め、もう少し本塁寄りに多いことがわかります。
打球が本塁によるということは、距離的には短い打球となります。ということは、こうした欠損値となったポップフライの角度は、観測値よりも大きいものが多い可能性が考えられます。
Statcastでは、欠損値の補填は観測値の平均値を割り当てることになっています。そのため、欠損値となったポップフライの角度は、実際の角度よりも小さい値が割り当てられているかもしれません。ほとんどがアウトになってしまう打球なので、この角度の情報はそれほど重要ではないかもしれませんが。
まとめ
以上、欠損値のグラウンド上での位置を確認しました。
打者個人の成績から見た場合、ゴロの欠損が毎年多い打者がいるというのを確認していますが、今回見た欠損値になりやすいグラウンド上の位置と確認が必要かもしれません。
さて、最近は専らStatcastデータの欠損値の性質を調べてきましたが、本来の目的は個々の選手のStatcastデータを見ていくことです。基本的なことは粗々確認できたと思うので、次回からは個人の打球データを見ていこうかと思います。
それと並行して、投球位置と打球の角度や速度のデータを見ていけたらと考えています。Statcastデータには、Pitch f/xデータで測定されるような投球のトラッキングデータもついてきています(Pitch f/xシステムとは誤差があるようですが)。このデータを使って、特定の球種や投球コースと打球の角度や速度との関係を調べてみようというものです。
という感じの2本立てを並行していこうと思っています。
参考文献
画像:いらすとや