ワールドカップ2022予測コンペに参加しました
スポーツアナリティクス Advent Calendar 2022 の記事です。
名城大学の小中先生が主催するワールドカップ2022予測コンペに参加したので、そちらの取り組みをまとめようと思います。
(一応取り組み内容自体は11/26に行われたSports Analyst Meetupで発表しています。 発表資料 / 発表動画)
コンペについて
本コンペはサッカーワールドカップについて、全試合の結果を予測するものです。(最終順位を予測する部門もあるのですが、長くなるので割愛)
単純にどのチームが勝つかを予測するのではなく、勝ち・引き分け・負けの確率を予測し、予測した確率に基づいた評価がなされます。
解法概要
解法としてはElo Ratingとホームアドバンテージを特徴量としたモデルとSPIとホームアドバンテージを特徴量としたモデルを組み合わせたものです。
Elo Rating
Elo Ratingとは各チームの強さを定量化したもので、基本的な考え方は以下のようなものとなっています。
レーティングが大きいほど強い
レーティングは試合ごとに更新され、勝てば増加し、負ければ減少する
順当な結果(=レーティングが大きいチームが勝った)場合のレーティングの変化は小さいが、番狂わせ(レーティングが小さいチームが勝った)場合は大きく変化する
このような性質があるため、レーティングが過大評価されているチームは減少しやすく、過小評価されてるチームは増加しやすいため、試合を繰り返すうちに本来の実力に近いレーティングに収束することが期待されます。
(数式を用いた説明はwikipediaのものがわかりやすいので、そちらをご参照ください)
SPI(Soccer Power Index)
SPIとは予測メディアであるFiveThirtyEightが公開しているレーティングで、試合のスコアをもとにしたMatch-basedなratingと、所属選手の情報をもとにしたRoaster-basedなratingを組み合わせて算出されています。
(詳細はこちら)
各Ratingの比較
今回使ったElo RatingとSPIに加え、FIFA Rankingを比較してみます。
微妙に差異はあるものの、基本的には似た順位になってる気がします。
(データの取得先: SPI / FIFA Ranking )
コンペ結果
結果としては12人中5位でした。(コンペ結果のページを見ると12人以上いるように見えますが、それらは主催者の方が追加した参考情報です。)
他の方がどういったモデルで予測しているかわからないのでなんとも言えませんが、参加者の平均であるconsensusというものが2位相当のスコアを記録しています。特に勝ち・引き分け・負けを全て1/3で予測するモデルより悪い結果となってしまったモデルも含んで(むしろ含んでるからこそ?)このスコアを出しているのは、機械学習でいうアンサンブルの強力さを再認識させる結果となっています。
特に、今回のワールドカップ予測のように検証に使えるデータに限りがある or データの傾向が変わっている可能性がある場合には、過去にうまくいった手法がこれまで通りうまくいくといった保証はないので、アンサンブルによって中立的な予測を行うのは大事だなと思いました。
終わりに
ワールドカップという一大イベントの予測に取り組めて大変楽しかったです。波乱の多いと言われているワールドカップでしたが、Elo Ratingを中心とした手法である程度の予測性能を出せることがわかったのも勉強になりました。