すべてのレーティングモデルを比較する(イロレーティングの場合)

ここでは、イロレーティングの変動係数K、得点差の反映方法、ホームアドバンテージの値を変化させて、どれがもっとも正確なレーティングになるかを、損失関数である平均二乗誤差(MSE)を使って比較します。

変化させたもの

変動係数 K: 10~50の2刻み(21通り)
ホームアドバンテージ HA: 0~50の2刻み(26通り)
得点差の計算方法 f(d): (7通り)
 default (得点差を考慮しない)
 WFER (World Football Ero Ratingsの方式)
 prev. (テキトーに作ったやつ)
 sigmoid (シグモイド関数をそのまま)
 sig-2 (sigmoidを得点差+1の時0.8に調整したもの)
 sig-3 (同0.7に調整したもの)
 tanh (tanh関数)
試合データ Dataset: J1リーグ戦を6年ごと(5通り)
 1993~1998年度
 1999~2004年度
 2005~2010年度
 2011~2016年度
 2017~2022年度

計算方法

レーティングの初期値は1500。
全チームのレーティングを毎試合計算しながら、「試合前のレーティングから求めるホームチームの期待勝率(0~1の範囲内)」と「ホームチームの実際の結果(1, 0.5, 0のいずれか)」の差を二乗したものを加算していき、最後に試合数で割った値(平均)を算出します。
これを、すべての組み合わせ(21*26*7*5=19110通り)で計算して比較します。

計算結果(K, HA, f(d), Dataset)

平均二乗誤差(MSE)を、「変化させたもの」ごとに平均したものを以下の表にしました。
赤い文字が最も数値が良かったものです(数値が小さいほど良い)。

係数等を変化させた時の平均二乗誤差の違い(一部抜粋)

変動係数Kは、24の時に最も小さくなることがわかりました。
上記の表は抜粋です(12とか14などは省略しました)。

ホームアドバンテージ(HA)は、40の時に最小となりましたが、どれもほとんど差がありませんでした。

得点差の計算方法(f(d))は、シグモイド関数の「得点差+1の時0.8に調整したもの(sig-2)」が最も良い値となりました。

試合データでは2011年~2016年の数値が最も小さくなりました。
1993年から2002年まではVゴール方式の延長戦が行われていました。2003年以降は90分で同点の場合は引き分けとなり、引き分けの数が増えたので、数値が小さくなっているものと思われます。

計算結果(Kとf(d)の組み合わせ)

以下は、変動係数 K と得点差の計算方法 f(d) の組み合わせの表です。

変動係数Kと得点差の計算方法の組み合わせによる平均二乗誤差の違い

先ほどは、変動係数Kは24が最小となっていましたが、得点差の計算方法と組み合わせて平均を取ってみると、変わってきます。

もともとのイロレーティングの場合ですと、Kの値は20が最良となっていますが、シグモイド関数を使って得点差を考慮すると、30~40ぐらいと大きめの数値のほうが良くなるようです。

これらの組み合わせで最も数値が小さかったのは、K=30 で sig-2 を採用したモデルでした。

まとめ

変動係数K=30、得点差の計算方式はsig-2が最良でした。
ホームアドバンテージははっきりとした差があらわれませんでした。
試合データは、Vゴール方式が無くなった2003年以降を使うと良さそうです。

以下は、最良だったsig-2の計算式です。

得点差の計算方式 (sig-2)

得点差 d を使って、実際の勝率 W を求めます。
引き分けの場合(d=0)は従来どおり0.5となり、1点差勝ちの場合(d=1)は0.8となるように、dにln(4)をかけています。

いいなと思ったら応援しよう!