【Kaggle NFL Big Data Bowl 2021】アメフトにおけるディフェンダーの評価指標とは?ウィニングソリューションまとめ
ESTYLEのデータサイエンス事業部のフッキーこと福田です。
本記事はKaggleコンペにチャレンジし始めて日が浅いビギナーに向けてコンペの内容とソリューションを分かりやすく伝えることに重きを置いています。
今回はモデルの精度を競わないコンペ[1]「NFL Big Data Bowl 2021」のウィニングソリューションについてまとめてみました。アイシールド21ファン(ヒル魔推し)の著者としては、アメフトの分析コンペは大変興味が沸くものでして、非常に楽しく勉強させて頂きました。
ソリューションの理解やモデリングの知識等間違っている部分がございましたら、ぜひコメントでお知らせして頂けると幸いです。
アメフトのルール
ここではコンペに必要なアメフトの基本的なプレーとポジションについての説明をします。「アメフトのルールは知っているよ!」という方はこちらの内容は読み飛ばして頂いてOKです。
代表的なポジション図
上図は代表的なポジション図です。本コンペで検証に用いるのは以下の3ポジションになります。
・QB(クォーターバック)
・WR(ワイドレシーバー)
・CB(コーナーバック)
得点方法はタッチダウンorフィールド・ゴール
アメフトはフィールド内の陣地を争うゲームです。ボールを持って攻撃する側は、相手陣地の一番後ろにあるエンドゾーン目掛けてタッチダウン(敵陣の最後方にあるエンドゾーンまでボールを運ぶ)(6点)やフィールドゴール(キックでゴールポストの間を通過させる)(3点)を目指します。オフェンス側は4回の攻撃権が与えられ、その4回のうちに10ヤード以上進むと、新しく4回攻撃権が与えられます。
プレーの開始
ボールが置かれた位置でクォーターバック(QB)が合図を叫ぶと、QBの前方にいるセンターの選手が足の間からQBにボールを渡すことでプレーが始まります。QBはボールを受け取ると、他の選手にパスをするのか自分で持って走るのかの選択があります。
攻撃側のプレー
・ランプレー
ランプレーではRB(ランニングバック)を中心に、選手たちがボールを持ちながら走ることで敵陣深くまで進入することを目指します。
・パスプレー(ここが本コンペの肝です!)
パスをキャッチするために、戦術として仲間内で予め決めておいたコースを走るWR(ワイドレシーバー)を中心とするレシーバー達を狙って、QBがボールを投げます。パスをキャッチしたレシーバーが、ディフェンスに止められた地点から次の攻撃が開始されます。レシーバーがボールをキャッチできず、パスが不成功だった場合は、そのプレイと開始地点と同じ場所に戻って次の攻撃が始まります。
QB以外の選手がパスを投げることもできますが、前方へのパスは、開始地点から後ろの位置で一度しか投げることができません。ただ、後方へのパスは何度でも可能です。
守備側の守り方
・マンツーマン
ディフェンスプレイヤーそれぞれに担当するオフェンスプレイヤーが割り振られる守り方です。
・ゾーン
各ディフェンスプレイヤーの担当地域を決めて守る方法です。
プレーの終了
ディフェンスはボールを持った選手を押し倒すことで、オフェンスが自陣に進入して来ることを防ぐことができます。ボールを持った選手の膝が地面につくか、フィールド外に出た時点でプレーが終了します。攻撃側は4回で10ヤード以上敵陣地に近づくことができないと、攻守交代です。
コンペ概要
ディフェンスバックのトラッキングデータから、実用的なインサイトを得る
今回のコンペでは、アメフトのディフェンスバック(DB)に関するトラッキングデータから、「実用的なインサイト」を得ることが目的です。
従来のKaggleのコンペと違う点は、「モデルの精度」を競い合うのではないというところです。このコンペでは最終的にKaggleのノートブック上に分析結果を表や図、コードを記載して提出します。
そして、その結果を評価するのはNFL関係の組織で働くデータアナリストなのです。ちなみに評価項目は下記の5項目です。
“””””””””””””””””””“””””””””””””””””””“””””””””””””””””””“”””””””””””””””
1.イノベーション
・知見が実用的か
・トラッキングデータの見方が斬新か
・インサイトが創造的か
2.正確さ
・ノートブックの中身の正しさ
・主張はデータに裏付けられているのか
・統計モデルはデータに適しているのか
3.妥当性
・NFLのチーム(またはリーグ事務局)はノートブックの結果を週単位で利用できるのか
・アメフトのデータを複雑にしている変数を考慮して分析しているのか
4. 明確さ
発見したことをどれだけ明確にしているのか。
5.インサイトをどれだけ明確にできているのか?
掲載してある表やグラフは興味深く、視覚的に魅力的で、正確であるのか。
“””””””””””””””””””“””””””””””””””””””“””””””””””””””””””“”””””””””””””””
最初の分析目標は、QB(クォーターバック)がパスのために下がった時にディフェンスが何をするのか考えること!
攻撃側のQB(クォーターバック。アイシールド21のヒル魔のポジションです。)がパスのためにポジションを後に下がった時に、「ディフェンス側はどういう対応を取るのか?」ということを考えるのが分析のファーストステップです。
例えば、下記のような場合のディフェンスの対応が考えられます。
・マンツーマンディフェンスをするのか?ゾーンディフェンスをするのか?
・パスが成功するのを妨害するプレーヤー(主にコーナーバック(CB))がパスが来る前に何をするのか?
・パスが空中に浮かんでいる時に、ディフェンス側はどうやって守るのか?
これらの観点からディフェンダーを評価するための指標を考えて、分析した結果を提出用ノートブックにまとめることが今回のコンペの概要です。
課題設定が難しい
このコンペの難しさの1つは、課題設定が難しいところだと思います。他のコンペでは、まず簡単なベースラインモデルにデータを投入して予測を出し、特徴量重要度を確認したりEDA(探索的データ分析)をしたりすることで、モデルの改善に取り組むことができます。一方、本コンペでは「まず何をしたらよいのか、よく分からない」というところが難点なのです。
アメフトのデータ分析に関係する論文やDiscussion、Codeを読みながら、どういう指標を設定するのが良いのか考えていく必要があります。
データセットについて
本コンペのデータは、2018年レギュラーシーズン中の試合の関するものです。すべてのパスプレーにおける選手追跡、プレー、試合、選手レベルの情報が含まれています。
データは下記の4つのデータがあります。
・試合データ
・選手データ
・プレーデータ
・トラッキングデータ
分析のために主に使われるのがトラッキングデータで、「week1.csv~weel17.csv」の17週分のデータを分析する必要があります。トラッキングデータは2018年レギュラーシーズンの週における全てのパスプレーに関するデータです。
入賞者のソリューションについて
1.Illuminating the Defense
ソリューションはこちら[3](Illuminating the Defense)です。
こちらではQBがパスを「投げる前/投げた後」に分けて評価指標を提案しています。ここから下は各フェーズの評価を決定するモデリングの解説と、各フェーズ以外の評価を担当するサブモデルに関する説明です。
○ サブモデル
・Expected Point Value(EPV)
ボールが到着する可能性の高い場所でレシーバーがボールをキャッチした時に、そのプレーで追加される予想ポイントです。各レシーバーのEPVを算出する必要があります。説明変数は大きく分けて、「アメフトに関する変数」、「レシーバーに関する変数」、「QBに関する変数」です。下記にそれぞれどのような変数があるのか説明していきます!
「アメフトに関する変数」
①ボールとボールを受け取る確率の高いレシーバーの距離
②QBと最終的なボール位置
ボールの最終的な位置は、レシーバーの速度とボールの速度から推定する。
③ボールが初めの位置(スクリメージライン)から敵陣地まで移動したのかヤード数
縦パスの距離と近い指標です。縦パスと比べ横パスは成功率が非常に高いことが分かっています。
「レシーバーに関する変数」
①レシーバーと最も近いディフェンダーからの距離
②パスを投げた時におけるレシーバーとサイドラインとの距離
サイドラインとの距離が狭いとパス成功率が低いことが分かっています。
③レシーバーとディフェンダーのフィールドの所有権
ボール到着時のプレイヤーの位置の確率密度を推定し、ボール到達位置から5ヤード以内のオフェンス側の空間の影響力を表す特徴量を生成します。
「QBに関する変数」
①QBと最も近いディフェンスとの距離
②攻撃が始まってから投球までの時間
③QBの動く速度
早く動いているほどパス成功率が低い。
④ボールが最初にある位置を境にした7✖️7ヤードの正方形(ポケット)に対するQBの位置。
ポケットとはQBが安全にパスを投げるためにブロッカー陣が形成するQB周辺の防護エリアのことです。
・ディフェンダーの配置
ディフェンダー割当てアルゴリズムです。特定のレシーバーを守る責任をディフェンダーに割り当てます。DTWアルゴリズム(動的時間伸縮法)を使って、レシーバーとディフェンダーの動きのベクトルの類似性を判断します。DTWでは、2つの時系列の各点の距離が最短となるパスを見つけることで類似度を図ることができる手法です。時系列の期間や周期が異なっていても類似度を算出できます。
○ QBがパスを投げる前のディフェンダーの評価
指標1:QBに長いパスを成功させないようにするディフェンダーのマッチアップ能力・何についての指標か
ボールが投げられるまでのプレイを通して、QBに長いパスを成功させないようにさせるディフェンダーの能力。アメフトにおいて、守り側は自陣の深い位置までのパスを通されると失点の可能性がかなり高くなります。
・評価指標の求め方
パスが投げられる前のプレー全体におけるディフェンダーのレシーバーとのマッチアップの平均値をダウンフィールドの距離と走るルートに基づいてモデル化しています。このモデルは、オフェンス側とディフェンス側のプレイヤーの関数です。
指標2:QBがパスを投げるまでにかかる時間
・何についての指標か
守っているレシーバーに対して、QBにパスを投げさせないようにするディフェンダーの能力。
・評価指標の求め方
期待完了確率と選手の識別子を考慮したベイジアン・ロジスティック回帰により、パスの対象となる選手をモデル化します。
○ QBがパスを投げた後のディフェンダーの評価
評価1:レシーバーがパスを受け取るまでにパスをカットしたり、レシーバーをタックルで止めたりする能力・何についての指標か
ボールがQBの手を離れた後、ディフェンダーがパスの結果に影響を与える能力。
・評価指標の求め方
到達時点でのプレーの結果をパスリリース時の仮想的な期待値と比較する。ただし、何ヤード進んだのかという結果は計算に含まないようにする。
評価2:レシーバーがボールを受け取った後のディフェンダーの対応能力
・何についての指標か
レシーバーがボールをキャッチした後のディフェンダーのパフォーマンスに基づいた価値指標。
・評価指標の求め方
BigDataBowl2019で優勝した際に使用されたモデルと同様のスタイルがこのモデルにも採用されています。このモデルでも、ディフェンス側とオフェンス側の選手の条件を入れて、プレーの観測値と推定値を比較します。
2.Weighted Assessment of Defender Effectiveness
ソリューションは[4]こちら(Weighted Assessment of Defender Effectiveness)です。こちらでは以下のdTPOEとdCPOEという2つのディフェンダーの指標を提案しています。
○【指標のdTPOEとはQBがどのレシーバーにパスを通すかを表す目標確率のこと】
目標確率とは、QBが投げるまで特定のレシーバーがQBのパスのターゲットになる可能性を示す指標です。対象レシーバーにはID(例えば1~5の整数)が与えられ、モデルはこのIDを目的変数として多項分類します。
dTPOEはXGBoostで求められています。
XGBoostとは、高速かつ高度に異質なデータに対してロバストであることで知られる勾配ブースト決定木フレームワークです。XGBoostは、非線形の決定境界で空間的な特徴の関係(座標など)と動的なプレーヤーの特徴(向きなど)を学習する能力が特に魅力的で、XGBoostモデルのチューニングには10倍のクロスバリデーションを用い、log lossに基づいてハイパーパラメータを選択しています。
○【指標のdCPOEとはレシーバーがパスをキャッチする確率のこと】
キャッチ確率とは、レシーバーがパスをキャッチする確率です。つまりQBのパス成功率とも言い換えることができます。
dCPOEはBARTで算出されています。アンサンブル法とブースティングの技術が使われているBARTは、ノンパラメトリック回帰手法で、特に非線形効果や相互作用効果に適しており、多数の共変量にも対応し、優れた予測性能を示しています。
○ 今後の方向性
dTPOEモデルでは、重要な瞬間を大きく重みづけする等、重み付けの方法を検討可能です。dTPOEモデルとdCOPEモデルに学習させる特徴はディフェンダーのスピード/方向/加速度、エンドゾーンまでの距離/カバレッジスキーム等があります。
将来バージョンでは特定QBやレシーバーを考慮可能で、ターゲットではないレシーバーのモデルも検討できます。
3.Defender Evaluation: One-Cut Routes + Double Moves
ソリューションは[5]こちら(Defender Evaluation; One-Cut Routes + Double Moves)です。
○ 評価指標は、レシーバーが切り返した後、コーナーバック(CB)がレシーバーに追いつくことができるかどうか
このソリューションでは、QBがパスを投げる前、「レシーバーが切り返した後、コーナーバック(CB)がレシーバーに追いつくことができるかどうか」について焦点を当てています。もしレシーバーにCBが追いつくことができなかったら、QBがそのレシーバーにパスを投げることで、攻め側が大幅に進行できます。
ここでは、レシーバーが一度切り返した「ワンカットルート」、二度切り返した「ダブルムーブ」に対して、ディフェンダーがどれだけレシーバーについていくことができるのかを数値化しています。プレイヤーが何度切り返したのかは、各フレームごとにプレイヤーの加速度変化を分析することで把握できます。
○ ディフェンダー指標を算出するモデル(ロジスティック回帰)
シングルカットのルートではレシーバーが最初にカットしてから2.5秒後のデータを使用し、ダブルムーブのルートでは2回目のカットを使用します。すべてのルートを同じモデルに投入するのではなく、ルートごとにモデルを生成します。
ここで、ロジスティック回帰を用いてターゲットをパス成功=0のパス失敗=1としたディフェンダーの成功確率を予測します。モデルから出力された予測値を正規化して、100をかけて得点関数を作成します。
ディフェンダー成績 = MinMaxScalar(P(Defender Success)) x 100
100に近いほどパスを阻止する確率が高い優秀なディフェンダーということになります。
○ ディフェンダーの守り方別にクラスタリング
このソリューションでは、レシーバーが二回切り返すのに備えて、一回目の切り返しに対して守りを甘くしているディフェンダーがいるのではないかという仮説を基に、ディフェンダーの守り方別にクラスタリングを行っています。
○ 結論
この評価システムを使えば、ワンカットルートやダブルムーブルートのディフェンスに優れた選手を評価できます。パスが来るか来ないかにかかわらず、レシーバーとコーナーバックの相互作用を見ているので、そのプレーでターゲットにされなかったコーナーバックの評価もできます。
クラスタリング分析では、異なるルートを守る際に特定の傾向を持つディフェンダーがいることを示しているので、NFLのコーチはその週のゲームプランを作成するときにこの知見を使うことができます。
まとめ
今回は入賞者のソリューションから、気になったものを抜粋してまとめさせていただきました。どのソリューションも違った角度から評価指標を考えていて、生データに対する分析実装の方法として非常に参考になりました。
この記事では各ソリューションの詳しい部分については触れていませんので、もし興味が沸いた方がいらっしゃいましたら、詳しい実装コードや具体例等はリンク先でご覧ください。
リンク
[1]Kaggleコンペ(NFL Big Data Bowl 2021)概要ページ
https://www.kaggle.com/c/nfl-big-data-bowl-2021/data
[2]Kaggleコンペ(NFL Big Data Bowl 2021)データページhttps://www.kaggle.com/c/nfl-big-data-bowl-2021/data
[3]ウィニングソリューション1:Illuminating the Defense
https://www.kaggle.com/msubbaiah/illuminating-the-defense#Before-Pass-Release
[4]ウィニングソリューション2:Weighted Assessment of Defender Effectiveness
https://www.kaggle.com/asmaetoumi/weighted-assessment-of-defender-effectiveness#Future-directions
[5]ウィニングソリューション3:Defender Evaluation: One-Cut Routes + Double Moves
https://www.kaggle.com/jdruzzi/defender-evaluation-one-cut-routes-double-moves#Clustering-Analysis
採用情報
ESTYLEは、「コウキシンが世界をカクシンする」という理念のもと、企業のDXを推進中です。経験・知識を問わず、さまざまな強みを持ったエンジニアが活躍しています。
弊社では、スキルや経験よりも「データを使ってクライアントに貢献したい」「データ分析から社会を良くしていきたい」という、ご自身がお持ちのビジョンを重視しています。
ご応募・問い合わせはこちら。
この記事が気に入ったらサポートをしてみませんか?