見出し画像

「タックルの上手さ」が分かる指標を作ろう!【NFLリサーチ紹介#8】

オフシーズン、NFL的にはかなり暇ですね。ニュースがないとはいえ都知事選と大統領選でTLが埋まるのは勘弁して欲しい。Netflixに大分助けられています。「Receiver」は見てる方多いと思いますが、「America’s Sweetheart: Dallas Cowboys Cheerleaders」も良かったですよ。特に最終回。

1. NFL Big Data Bowl

そんな関連番組も全て見てしまった、推しチームの情報も流れてこない、だけどNFLに触れたい…というあなたにおすすめなのが、次のNFL Big Data Bowlというデータコンペです。

【NFL Big Data Bowlとは】
Kaggle主催で、毎年NFLに関する違うお題が設定されるスポーツ・アナリティクスのコンテスト(例: 2024はNFL選手の「タックル・パフォーマンス」を検証するのがお題)
• 分析用のデータをNFL, NextGenStats, PFFなどが全て提供(かなり高度なデータ含む)して、データを元に参加チームが研究・提案を行う
• 優秀だった5組がファイナリストとして招待(賞金$12500)、優勝チームは追加で$12500
勝者の分析は各チームに共有され、実際にNFLのゲーム戦略や選手評価に影響を与える可能性がある
• 「コーチがデータサイエンティストと組んで出場する部門」「学部生のみのグループの部門」「指標を作成する部門」などがある

僕はNFLの論文を読むのが好きという変わった趣味(参考記事)があるのですが、多くのNFL系の論文の難点として、(1) 査読に時間がかかるのでデータが古い (2) PFRなどで公開されている簡単なデータしか使えない (3) 論文へのアクセスが大学に所属していないとない(ので転載すると著作権違反)、という欠点があります。その点、Big Data Bowlは「最新のデータ、高度なデータを使って研究する(今回は2022のWeek1-9のデータが参加者に配られました)、結果は全て一般公開」ということで、内容がより現在のNFLに近く、面白いものが多く、皆さんに共有もしやすい

そこで今回は、2024年の最優秀賞を取ったチームの研究「Uncovering Missed Tackle Opportunities(見逃されたタックル機会を発見する)」を紹介してみたいと思います。

2. ラインバッカー(LB)はどうやって評価するか?

さて、今年のテーマの「タックル・パフォーマンスを検証する」という内容は非常に良いお題(毎年いいお題ですが)。何しろ現状のNFLには、タックルの上手さを評価するスタッツがありません。僕はFred Warner (SF)がダントツでリーグ最高のILBだと信じていますが、それをスタッツで証明するのは非常に難しい。

LBの主要なスタッツはタックル数しかないですが、タックル数は多ければ多いほどいい選手という指標ではありません(弱い選手や守備で逆に増えることも)、また、実はかなり主観的な指標です(どれがソロタックルなのか等は記録員が見て判断)。しかし他の1st team all-pro(APの記者投票)や、PFF grade(PFFのメンバーがプレーの動画を見て点数化して判断)といった指標も個人の判断で決まるものなので、何か客観的な指標が欲しい。

個人的にはPFFは課金していますし、グレードにも価値はあると思いますが、全く完璧だとは思っていなくて、PFFグレードが守備選手を表す一番良い指標のように扱われている現状には結構な違和感があります。今回のお題設定の背景として、「タックルの上手さ」というこれまで主観的にしか測れなかった指標をデータから導けるようになれば、選手をより客観的に評価できるようになり価値があるというのは少なからずあるでしょう。

3. 今回の研究

3.1. 選手の位置や速度データから、各時点の「タックル成功率」を調べた

そこで今回の優勝チーム(調べてみたら凄まじいエリート集団でした)は、機械学習を使って「次の1秒間でタックルが成功する確率」を計算するモデルを作成しました。
今回は、Week1〜Week8で8000の成功タックルと1583のミスタックルのデータを分析してモデルを作成し、作成したモデルをWeek9のデータで検証したところ、非常に高い予想精度でタックルの成功率を判断できることを示しました。

モデルが「タックル成功」と予測した場合は97%の確率で実際にタックル成功、モデルが「タックル失敗」と予測した場合は57%の確率で実際にタックル失敗。後者の精度はやや低いが、今回はミスタックル(成功率が高いのに失敗するケース)を調べたいので問題なし
(https://www.kaggle.com/code/matthewpchang/uncovering-missed-tackle-opportunities/ より)

【計算機科学や統計学専門でない自分ですが、ここの詳細を噛み砕いて説明してみます、飛ばしてもOK】
まず、タックルが成功するかに関係していそうな次の7つのパラメータ(x1~x7)を設定します。
x1 = タックラーとボールキャリアーの距離
x2 = ボールキャリアの速さ
x3 = ボールキャリアのタックラーに対する相対速度 (速さ、向き、角度)
x4 = ボールキャリアの前方の空間の空き具合
x5 = 守備側の他の選手の位置 
x6 = 攻撃側の他の選手(ブロッカー)の位置
x7 = パスプレーかランプレーか
実際の試合のデータを大量に集めると、「x1〜x7の値」と「タックルが成功するか」の組み合わせのデータが集まるので、それを機械で集計・分析することでこの2つの関係の傾向(どういう条件の時にタックルが成功しやすいか)を読み取ることができます
例えば、何となく「x2(ボールキャリアの速さ)は遅い方がタックル成功しそう」とか「x4(ボールキャリアの前方の空間)が空いている方がタックル失敗しそう」とかは人間でも予想できますよね。これを厳密にやって、どのパラメータがどの程度大事なのかの傾向を読み取ります。そうすると最終的に「モデル = 未知のx1〜x7が与えられた時にタックル成功率を予測するシステム」を作ることができます。
ちなみに、Win Probabilityとかを計算するモデルも同じ仕組みです。機械学習に詳しくない方も、あれは「勝ちに繋がる要素を過去の例から集計して、今その要素を見て算出している」のだと思ってくれたら大丈夫です。

このモデルの素晴らしいところは、入力データ(距離、速度、選手の位置など)が全て客観的で、主観が入る余地が1つもありません。試合の録画データから人間なしでそのままタックル成功率を計算できるわけです。

3.2. 時間変化をプロットすると、ミスタックルのタイミングが分かる

このモデルで計算するタックル成功率は、時間変化によって変化します(選手の位置、距離、速度が変わる)。これをプロットしてみると次図のようになります。

横軸は時間、縦軸はタックル成功率(モデル予測)。4秒付近の山ではタックル成功率が上がっているがその後下がっている(= タックル失敗して取り逃がした)。
一方、5秒以降の山は100%に収束してプレーが止まっている(=タックル成功)
(https://www.kaggle.com/code/matthewpchang/uncovering-missed-tackle-opportunities/ より)

プレー開始4秒付近に注目してください。ここではタックル成功率がほぼ100%に近いところまで上がったのに、その後下がっています。これが「ミスタックル(タックル成功率が高いのにタックルできずに逃した)」だと考えることができます(今回の研究では、著者は「75%以上のタックル成功率が0.5秒以上続いたが取り逃がした」のを「ミスタックル」と定義しています)。
つまり、録画データを機械に入力してタックル成功率を時間別に計算するだけで、「どこでどのディフェンダーがミスタックルした」というのを自動検出できるということです。繰り返しになりますが、ここまで人間の作業が一切要らないのがすごい。

3.3. 具体的なプレー(TB-LAR, NO-BAL)で見てみよう 

まだ分かりにくいということで、研究では具体例を挙げてくれています。
1つ目は2022年Week9のTB-LAR。割と普通のプレーですが、TBのRBのLeonard Fournetteが左へのランでAaron Donaldをかわして、Jalen Ramseyと接触後に最後はErnest Jonesが追いついて倒された(6ヤード獲得)というプレー。

左:選手の2次元座標データ、右:各選手の時間別タックル成功率
(https://www.kaggle.com/code/matthewpchang/uncovering-missed-tackle-opportunities/  より)

これをプロットすると上図のようになります。確かに、最初タックルをかわされたDonald(緑)のミスタックルが1.5秒に観測され、次にRamsey(オレンジ)が追いつき、動きを止めている間に青のJonesがタックルに成功して止まった、というのがグラフを見るだけで分かります。(RamseyもJonesもミスタックルしていないのは、タックル成功率がこの後下がっていないことで分かる)

2つ目は2022年Week9のNO-BAL。こちらは動画付きで、BALのKenyon Drakeが大量にタックルをかわしながら18ヤード獲得したプレー。グラフのようにTaylor (紫), Ellis (緑), Roach(赤)とBaun(青)、という順に山があってミスタックルが分かります。ファンとしては見ていて辛い。

酷いプレーですが、NOでは結構よくある…パス守備は強いんですが
左:選手の2次元座標データ、右:各選手の時間別タックル成功率。右図に注目してください。
(https://www.kaggle.com/code/matthewpchang/uncovering-missed-tackle-opportunities/ より)

ちなみにPFFのスタッツ上だと、Malcolm Roach (#97)だけミスタックルがついています(1試合で何百プレーも見て記録する人間の限界)。この方法なら、自動的に4人タックル失敗した選手を検出してくれて、また各々の責任の割合とかも計算できるわけです。

3.4. やっぱり Fred WarnerがNo.1

著者はさらにこれを応用して、2022のWeek1-9でLB, S, CBの選手別に

指標1. タックル機会率 = タックル機会があったプレー数 / アクティブなプレー数 (どれくらい試合においてタックルする機会が大きいかの指標)
指標2. ミスタックル率 = タックル失敗したプレー数 / タックル機会があったプレー数 
(どれくらいタックルミスが多いかの指標)

という2つの指標を提案し計算しています。人力でやるには多すぎる集計ですが、今回は自動集計なので全選手のタックル機会とタックル成功/失敗数が計算できます。これをポジション別にプロットする(指標1がポジションでズレがあるため)と次図です。

左:CBとS、右:LB。横軸がタックル機会率、縦軸がミスタックル率 (https://www.kaggle.com/code/matthewpchang/uncovering-missed-tackle-opportunities/  より)

このように図示すると、「右下 (ボールにはめちゃくちゃ絡むが、タックルミスは少ない)=タックルが上手い」と判断できると著者は提案しています。

ここで非常に説得力があるのが、右下に来ている選手のメンツですね。LBではFred Warner (SF)とNick Bolton (KC)、SではDerwin James (LAC)にBudda Baker(ARI)。プロボウル級が並んでいます。またJonathan Owens (GB)やAlex Singleton (DEN)に関しても、タックル技術が高いのだろうと想像できます(あまり詳しくないですが、パスカバーがイマイチなのかも)。
ちなみに本文中にはないですが、オフェンス選手で同様に調べると、最もミスタックルを引き起こす選手はLamar Jackson (BAL)らしい。やっぱり正確そうなモデルですね。

3.5. 結論

まとめると、試合の録画データから適切なパラメータを設定して精密なモデルを作成することで

  • 現在は公式の記録ではない「ミスタックル」を客観的に自動検出できる

  • これを使って、現在のスタッツだけでは分からない「タックルが上手い選手」を評価にも応用できる

というのが新しい点でした。

4. 感想:PFFの限界は、ビッグプレーに引きずられやすいところ?

最後に、これは研究内に書いてあったわけではないですが、1つ思ったことを付け加えます。今回一番驚いたのが、先ほどの図のデータで、Frankie Luvu (CARのLB)がミスタックル率で圧倒的に上位にいる点(ミスが4割超え)でした。これ、同地区のNOを応援している自分としては結構意外で、Luvuはいい選手のイメージでした。Off-ball LBなのに毎回凄いスピードでRBやQBに突っ込んできてサックやFFを量産するイメージで天敵。今年3年$36MでWASと契約しましたが、別地区に行って本当に嬉しいくらい、めちゃくちゃ優秀な選手のイメージでした。

ところが、今回の結果ではタックルの「精度」が低いという事実が明らかに。実際調べてみると、詳しい人だけがこのモデルと同様に、「凄まじいスピードのタックルは諸刃の剣で、ミスタックルが多い」ことを指摘しています。推しチームの選手でもない限り、LBで見るのなんてビッグプレーとせいぜいPFFグレード程度(実際PFFグレードはビッグプレーに引きずられているのか非常に高くなっています)。

今回のモデルでは、Fred Warnerが良いLBという試合見ていれば分かる話が再確認されるのに加えて、Alex SingletonやJonathan Owensが実は超優秀なタックラーだとか、Franklie Luvuは実は大きな欠点があるとか、目に見えづらい点がわかるという点でもとても価値があると思いました。優勝も納得ですね。


5. 次回予告(?)

次回予告、と銘打って書かない記事が多いのは置いておいて、実はNFL Data Bowlは6年目で、毎年面白いテーマが設定されています。

2023「パスプレーにおけるラインマン(OL, DL)の評価」
2022「スペシャルチームのパフォーマンスの評価」
2021「パスに対するディフェンススキームをデータサイエンスで理解」
2020「ハンドオフ時点でラン獲得ヤードを予測するモデルを作れ」
2019「パスルートとオフェンススキーム」

今回紹介した2024も、優勝チーム以外の研究も面白かったですし、2023のラインマンも(若干難しいですが)意義が大きいと感じました。また、実はファイナリストに日本の人(メルカリのデータサイエンティスト)を見つけたりもしました。

今回の記事で反応が良さそうなら、続いてBig Data Bowlシリーズをやってみたいと思います。長文記事、お読みいただいてありがとうございました。よければ他のものもお読みください。

6. 余談

今回の優勝チームはどんな人がやってるんだろうと思って調べてみたら、なんとスポーツ関連の人ではなく、プリンストン大で博士を取ったデータサイエンティスト4人の友人同士で応募したそうです(所属はmetaだったり元Appleだったり大学教授だったり)。優勝した人のブログを読んだのですが、アナリティクス詳しいと陥りがちなデータ至上主義にならず、実際のプレーや聴衆の感想をリスペクトした上でデータサイエンスを行っているのが素晴らしいなと思いました。ちなみにリーダーは49ersファンだそうです。

We also ranked all defensive and offensive players by their rate of missed tackle opportunities or rate of generating missed tackle opportunities, respectively, and made sure that these matched our intuition. Lamar Jackson is the most elusive QB? Checks out. Fred Warner and Nick Bolton generate a lot of tackle opportunities and don’t miss often? Checks out. Now certainly, there will be surprises — and that’s also the value of data — but if your results are telling you something that doesn’t jive with intuition, you should investigate why, rather than just accepting it as truth.
(ディフェンスとオフェンスの全選手を、それぞれミスタックル機会率またはミスタックル機会発生率でランク付けし、これらが私たちの直感と一致することを確認しました。ラマー・ジャクソンが最もエルーシブなQB?素晴らしい! フレッド・ワーナーとニック・ボルトンは多くのタックルチャンスを生み出し、あまりミスしない?素晴らしい! しかし、もし直感と一致しない結果が出たなら、それを真実として受け入れるのではなく、その理由を調査すべきです。)
You haven’t solved football, and your audience knows football better than you. Make sure you acknowledge the limits of your work and how it can be improved together with the domain expertise that your audience has.
(データサイエンスでフットボールを解いたとは言えないし、オーディエンスはあなたよりもフットボールを知っている。自分の仕事の限界と、聴衆が持っている専門分野とともにどのように改善できるかを認めるようにしましょう。)

https://mpchang.github.io

7. 出典

優勝チームの発表(図は全てここから)

動画で発表も見られます

本文中にないこんなデータも

勝者発表と報告記事


この記事が気に入ったらサポートをしてみませんか?