すべてのレーティングモデルを比較する(イロレーティングの場合)
ここでは、イロレーティングの変動係数K、得点差の反映方法、ホームアドバンテージの値を変化させて、どれがもっとも正確なレーティングになるかを、損失関数である平均二乗誤差(MSE)を使って比較します。
変化させたもの
・変動係数 K: 10~50の2刻み(21通り)
・ホームアドバンテージ HA: 0~50の2刻み(26通り)
・得点差の計算方法 f(d): (7通り)
default (得点差を考慮しない)
WFER (World Football Ero Ratingsの方式)
prev. (テキトーに作ったやつ)
sigmoid (シグモイド関数をそのまま)
sig-2 (sigmoidを得点差+1の時0.8に調整したもの)
sig-3 (同0.7に調整したもの)
tanh (tanh関数)
・試合データ Dataset: J1リーグ戦を6年ごと(5通り)
1993~1998年度
1999~2004年度
2005~2010年度
2011~2016年度
2017~2022年度
計算方法
レーティングの初期値は1500。
全チームのレーティングを毎試合計算しながら、「試合前のレーティングから求めるホームチームの期待勝率(0~1の範囲内)」と「ホームチームの実際の結果(1, 0.5, 0のいずれか)」の差を二乗したものを加算していき、最後に試合数で割った値(平均)を算出します。
これを、すべての組み合わせ(21*26*7*5=19110通り)で計算して比較します。
計算結果(K, HA, f(d), Dataset)
平均二乗誤差(MSE)を、「変化させたもの」ごとに平均したものを以下の表にしました。
赤い文字が最も数値が良かったものです(数値が小さいほど良い)。
変動係数Kは、24の時に最も小さくなることがわかりました。
上記の表は抜粋です(12とか14などは省略しました)。
ホームアドバンテージ(HA)は、40の時に最小となりましたが、どれもほとんど差がありませんでした。
得点差の計算方法(f(d))は、シグモイド関数の「得点差+1の時0.8に調整したもの(sig-2)」が最も良い値となりました。
試合データでは2011年~2016年の数値が最も小さくなりました。
1993年から2002年まではVゴール方式の延長戦が行われていました。2003年以降は90分で同点の場合は引き分けとなり、引き分けの数が増えたので、数値が小さくなっているものと思われます。
計算結果(Kとf(d)の組み合わせ)
以下は、変動係数 K と得点差の計算方法 f(d) の組み合わせの表です。
先ほどは、変動係数Kは24が最小となっていましたが、得点差の計算方法と組み合わせて平均を取ってみると、変わってきます。
もともとのイロレーティングの場合ですと、Kの値は20が最良となっていますが、シグモイド関数を使って得点差を考慮すると、30~40ぐらいと大きめの数値のほうが良くなるようです。
これらの組み合わせで最も数値が小さかったのは、K=30 で sig-2 を採用したモデルでした。
まとめ
変動係数K=30、得点差の計算方式はsig-2が最良でした。
ホームアドバンテージははっきりとした差があらわれませんでした。
試合データは、Vゴール方式が無くなった2003年以降を使うと良さそうです。
以下は、最良だったsig-2の計算式です。
得点差 d を使って、実際の勝率 W を求めます。
引き分けの場合(d=0)は従来どおり0.5となり、1点差勝ちの場合(d=1)は0.8となるように、dにln(4)をかけています。
この記事が気に入ったらサポートをしてみませんか?