Statcastデータの欠損と補填
Statcastデータに生じる欠損と補填
先日、といっても昨年の投稿になりますが、Jim Albert氏の『Cleaning Statcast Data』を紹介しました。
Statcastデータには欠損があって、それを特定の打球の速度と角度で埋めているのでこれを削除しようという話でした。
今回はこのStatcastデータの欠損について、さらに資料を教えてもらったのでそれを紹介しつつ、このデータをどう扱っていこうかということについて話を進めたいと思います。
最初に紹介するのがAndrew Perpetua氏のAccounting for the “No Nulls” Solutionです。
2017年の記事ですが、Statcastデータの欠損とその補填についての詳しい内容なので一読を勧めます。今回は一部その内容を紹介したいと思います。
データの欠損パターン1:特定の試合の抜け落ち
これは特定の区間(試合やイニング)のデータが丸々抜け落ちるケースです。こういうミスは起こり得るものです。幸いStatcastデータ全体から見れば微々たる量なのでそこまで心配の必要なものでもないようです。
データの欠損パターン2:特定の打球の欠損
記事に依れば、TrackManのレーダーに対し垂直方向へのボールの動きの測定に問題があるそうです。元の記事では、打球の種類(ゴロ・ライナー・フライ・ポップフライ)ごとに欠損の生起率がまとめられていますが、自分でも2019年のデータを使って、欠損を補填したと思われるデータを、打球と結果別に集計してみました。データを以下の表1-1に示します。
欠損を補填したケースをMissとして計測し、全ての結果(N)に占める割合(%)を求めています。特に多い結果は赤字としています。
極端に多いのは、ゴロ(ground_ball)の犠打となった結果(sac_bunt)と、ポップフライ(popup)のアウトとなった結果(field_out)です。このあたりが先述のTrackManが苦手としている打球といえそうです。
他にも、ゴロ(ground_ball)の単打(Single)やアウト(field_out)で多いのが特徴です。ケース(N)は少ないですが、他にもゴロ(ground_ball)のforce_out, fielders_choice, fielders_choice_out, field_errorも多いといえそうです。
上記の2タイプが欠損の全てとはいえず、他のシステムの問題がある可能性もあるようです。
欠損データの補填
こうしたデータが欠損した場合、打球の角度と速度、距離、スピンのデータを入手することができません。一方で、打球の種類(ゴロ・ライナー・フライ・ポップフライ)とその結果、処理した野手と大まかな位置の情報は記録されています。この記録された情報は“stringer information”と呼ばれ、これを元に欠損した情報を補填することになります。
例えば、ゴロアウトとなった打球のデータが欠損となった場合、ゴロアウトの打球の角度と速度の平均値を補填するといった方法を取ります。
この方法の提案者はTom Tango氏のようで、以下の彼の記事から読むこともできます。
補填された欠損データをどう扱うべきか
こうした欠損を補填したデータをどう扱うべきか。前回のJim Albert氏の『Cleaning Statcast Data』は削除してしまうという方法でした。
しかし、@sleep_in_nmbrsさんから以下の指摘を貰ったのですが、欠損データはランダムに生じているというわけではなく、特定の打球で生じやすい傾向がありそうで、バッサリ切ってしまうことにはリスクがありそうです。
Andrew Perpetua氏は欠損を補填した部分はTrackManの測定されたデータとは色を変えて表示していますが、現状はこのように違いが分かるように併存して表すほうが良いかと思います。Statcastデータを扱う際には注意が必要な要素と言えます。
前回からスタンスがブレて申し訳ありませんが、まだまだ探り探り分析を進めているのでお許しください。
個人的にはこうしたデータの欠損が、個人レベルの成績で見た場合にどれくらいの頻度で起こっているのかが気になります。データ欠損の生じやすい選手はいるのか?それとも、一過的に欠損データの増減があるのかは確認が必要かと思います。これは今後の検討課題とします。
ゴロの欠損は減少傾向にある?
最後に、末尾に表1-1で示した2019年以前のデータを以下の表1-2から表1-5に示します。データを見ると、ゴロの単打(Single)やアウト(field_out)の欠損は減少傾向にあるようです。
これは、TrackManの測定精度が向上しているのか、それとも現在はフライボール革命の影響を受けて、MLB全体としてゴロが減少傾向にあることが反映されたのかわかりません。
できれば、測定精度の向上によるもので、将来的にはデータの欠損が0になることが望ましいですが、2020年にそこまで到達するのは難しそうなので、継続的にデータを見ていく必要があるでしょう。
Special thanks to @sleep_in_nmbrs & @903124S
画像:いらすとや