2022年度MLBシーズンでポストシーズン進出に出場する為には…part 3(92勝到達には...)
前回の記事のおさらい
前回の記事では、MLB2022年度のデータを基にPlayoff出場のためにはシーズン何勝をする必要があるのかを回帰分析を使用して予測して求めました。
予測の結果、Playoff出場のためには92勝あれば出場の可能性が最大化される事が分かりました。それでは92勝を実現するにはどの様な点に気を配る必要があるのでしょうか...?
勝利数を最大化するには何が必要なのか…?
上の画像はシーズン92勝を果たしたチームの一覧のデータです。
私たちはプレーオフ進出に向けたシーズン92勝という目標を導き出す事ができましたが、その数値に達するにはどの様なデータに気を配る必要があるのでしょうか?
勝利数との関係性
下記では各データごとに勝利数とどの様な関係性があるのかを表した散布図です。青色のドットが92勝以上あげたチームを指し、赤色のドットが92勝以下のチームを指します。
この散布図では約2つの青色ドットが複数の赤色ドットより低いRS/Gを持っている事を示しています。ですが、2つの青色ドットは92勝に達しているためイレギュラーなケースだと捉えれます。全体的にはRS/Gの数値が高ければ高いほど勝利数が増える事が期待できます。
この散布図では、RA/Gの数値が高ければ高いほど勝利数が低下している事が見て取れます。この散布図でもRS/Gの散布図と同様に3件イレギュラーなケースが含まれています。
この散布図では1試合平均の得失点差と勝利数の関係性が表されています。1試合平均の得失点差の指数が0.4以降92勝以下のチームは無いの点、そしてグラフが右肩上がりな点から非常に相関性の高い指標の可能性があります。
この散布図では勝利数と得点数の散布図になっています。この散布図では上記の散布図と異なり、得点数に対して勝利数の散らばり具合がまばらな点から、双方の指標の関係性が薄い可能性があります。
勝利数と相関性の高い指標は何か…?
最後に勝利数と得失点差の散布図では1試合平均の得失点差の散布図同様の右肩上がりの関係性を見せています。
ヒートマップにてW(勝利数)と相関性の高い指標を導き出します。
正の相関
RDif (得失点差) 0.98
RS/G - RA/G(1試合平均の得失点差) 0.98
RS/G (1試合平均の得点) 0.82
負の相関
RA/G(1試合平均の失点) -0.88
今回R(得点数)は-0.2と勝利数との相関性が低い事がわかったので、ここから切り捨てます。
# (1 > X >-0.4) or ( 0.4 < X < 1 )以下の場合は相関性無しとみなします。
↑ ヒートマップやデータの関係性についてわからない人はこちらの記事にて解説していますのでぜひご覧になってください。
RDif (得失点差)
今回1番勝利数との相関性が高かったRDifに焦点を当てて話を進めていくことにします。
得失点差とは(シーズン合計得点)ー(シーズン合計失点)にて求められます。そしてRDifの数値を高めるためには、可能な限り得点数を増やして失点数を減らすことで数値を高める事が可能になります。
各チームのRDif
これは各チームのRDifを表したグラフです。
左側(Brewersを除く)12チームがPlayoff出場チームで全てのチームが正の数値を残している事がわかる。一方でPlayoffに進めなかった殆どのチームが負の数値を残しているのがわかる。この段階で92勝を目指すなら大体正の数値を残す必要がある事がわかった。それでは厳密にどれほどの数値が92小児は必要なのだろうか…?
今回も前回同様に機械学習を利用して予測を行って行きます。
勝利数予測の流れ
今回学習に使用するデータ
W (勝利数) とRDif(得失点差)を使用します。
今回使用する人工知能のアルゴリズムは線形回帰モデルを使用します。
線形回帰モデル(Linear Regression)
今回得失点差と勝利数の散布図にて右肩上がりの散布図を確認できました。
この様に関係性が直線で右肩上がりで見える関係性では線形回帰モデルが使用されます。
今回の場合だと機械に今までのデータ(上記のグラフのデータ)を統計的に学習させます。そして92勝を達成する場合RDifはどれくらいの数値になるのかを、過去のデータ(学習させたデータ)を基に予測して行きます。
https://self-methods.com/sklearn-linear-regression/
線形回帰モデルによるRDif数値予測
今回の予測に当たって使用したコードは以下になります。
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
X = Dataset[['W']].values
Y = Dataset[['RDif']].values
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=0)
X_train, X_valid, Y_train, Y_valid = train_test_split(X_train, Y_train, test_size=0.3, random_state=0)
linear_model = LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)
linear_model.fit(X_train, Y_train)
# Show prediction result
linear_model.predict([[92]])
RDif(得失点差)予測結果
array([[110.61752015]])
結果: 2022年度のシーズンで92勝以上をする為には、得失点差の数値を約110必要だという事が分かりました。
その予測の信憑性
果たしてRDif[ 110 ]という結果は信憑性が持てるのでしょうか…? グラフを基に見て見ます。
このデータを見ると92勝をギリギリクリアしているBlue JaysとGurdiansはともにRDif110を下回っています。ですが1勝多いCardinalsは135と25上回っています。この1勝でRDifの数値が大きく差が開いているのは少々気になりますが、より確実に92勝到達を目指すのならば、最低でもRDifの数値は100〜110はあってもおかしくないのかも知れません。
ではどの様にしたらRDif(得失点差)で110を取る事が可能になってくるでしょうか…? この指標では得点と失点の差が数値になる為、得点そして失点の両方に気を付けなければいけません… 次の記事にてこの分析と予測に関する深掘りを進めて行きたいと思います。
このシリーズでは2022年度のMLBレギュラーシーズンの分析と予測を順を追って書いています。なのでPart 0から順を追って見て頂けると読みやすいと思うので、是非参照ください。
この記事が気に入ったらサポートをしてみませんか?