平均への回帰:Tangoの方法というやつ
野球は基本的に、勝率とか打率とかの確率の変動を狂喜乱舞するスポーツなので、統計的に扱おうという場合には確率的な振る舞いを考慮する必要があります。1週間に1本ヒット数が違えば.040くらい打率は変わってくる(7 / (4*6) = .291; 8 / (4*6) = .333)というのはわりとびっくりします。このように確率の実現値はちょっとした運によって大きくばらつくものなので、シーズン中の数百打席の打席とか数十試合の勝率では単なる割り算は(最尤推定値であるとはいえ)あんまり当てにしすぎるのは良くないのです。
理論値による実現値の補正
幸い、野球のデータには収束を示すものや理論値があるものがあります。たとえば、聞くところによるとリーグ規模ではHR数÷フライボール数は収束するし、勝率の平均は.500を見積もっていいでしょう。打率でも、その年のリーグ平均を使えば大概の場合、一人の選手を見るよりは確実によく平均的な打者の生産性を推定できるではずです。こういう情報を使って、さらにデータの実現値を生じさせている統計的構造を分析に取り入れれば、もう少し信頼性のある推定ができます。それがTangoの方法というやつです。
実現されている値(例えば勝率)は、「①チームの強さ」と「②運」という2つの変数によってばらつく(=高かったり低かったりする)と考えられます。②の影響は試合を重ねるごとに小さくなるでしょう。一方、①が生じさせるばらつきの大きさは試合を重ねても変わらないでしょう(野球のルール及びリーグの構造に起因するばらつきだから:1000試合やったとしても昨年はDodgersが勝率1位だったに違いない)。もし手元に大規模なトレンドを表すデータがあるのなら、この影響の大きさを見積もって分析に入れたほうがよい推定値が得られると思いませんか?
そこで、一定試合数における「②運」に起因するばらつきはだいたい一定値だと考えられることを利用して、「①チームの強さ」が生じさせるばらつきの大きさを推定します。
★勝率の分散 = ①に起因する分散 + ②に起因する分散
なので(①が定数で②が試合数の関数であることに注意)、例えば162試合分のデータがあるとして、★が0.07^2だったとしましょう。②は二項分布(確率pで勝ち、1-pで負けというような状況を表す分布)を仮定すれば平均勝率は.500なので分散は0.5*(1 - 0.5) / 162 ≒ 0.039^2 くらいになります。そして★からこの値を引き算すれば①は0.058^2くらいになります。この値を「①チームの強さ」がもたらすばらつきの大きさと見積もれるわけですね(この値は試合数に関係ない一定値だと考えられることに注意)。だいたいこの値というのは、0.5*(1 - 0.5) / G = 0.058^2 を解くと G=74 となって、だいたい74試合ぶんの運に相当するということが言えます。そこで、サンプル数が少ない場合にチームの本当の強さを予想する場合には、74試合を.500で終えた、つまり37勝と37敗をチームの勝敗数に足して計算することで運の影響を補正できる。以上がTangoの方法です(補正値は「平均」としてどういうデータを使うかに依存する。打率とかにもそのまま使えます。また今度時間があれば詳しく書きます)。
↑は例として挙げた数値なので、昨年のデータを使って今シーズンのこれまでの成績を見積もるなら、昨年の勝率の分散である0.086^2と、0.5*(1 - 0.5) / 60 = 0.064^2 を使って、0.057^2を使いましょう(上の例とほぼ同じ値! )。試合にすると77試合なので、39勝39敗を足すということにしましょう(厳密に計算したい人はもっと有効数字をいれてもよい)。現在Metsは12勝13敗なのでTango的推定勝率は.495です。実現値の.480よりは上ですね。やったね。
ベイズ推定の枠組みでの説明
理屈を腑に落ちさせるにはベイズ統計の枠組みで理解するのがわかりやすいです(以下、人によってはどうでもいい話かもしれないので関心がなければ飛ばしてください)。
ベイズ推定は、もともと想定していた事象の生起確率(事前確率)を測定データが得られるに従いアップデートし、事後確率という新たな予測を得るという枠組みです。予測したい変数に二項分布を仮定する場合、pを生成する分布としてベータ分布を用いれば、これは共役事前分布になります。pはチームの真の強さなので、このベータ分布の分散が②に相当します。ベータ分布は [p^(a-1) * (1-p)^(b-1)] /[定数] と書けますが、期待値a/(a+b) が0.5で分散ab/[(a+b+1)(a+b)^2]が今の例の場合0.058^2なので、2変数2式なのでaとbを計算できます。
この事前分布を使って、データが得られたあとの事後分布を求めるとこれもベータ分布になって(共役事前分布の性質)事後分布の期待値が(a+勝数)/(a+b+勝数+敗数)になります(先の例を使った数値だと、a=37、a+b=74となる)。これを予測値として採用したのがTangoの方法とみなせます(ベイズ用語的にはEAP(Expected a posterior) 推定値という)。
以上、なんとなく見つけた論文で使われていて疑問に思ったので調べてまとめました。↓のフォーラムを参考にして書きました(例の数値とかはまんま使った)。
Birnbaum, P. 2011. “The Tango Method of Regression to the Mean.”
URL: http://blog.philbirnbaum.com/2011/08/tango-methodof-regression-to-mean-kind.html (accessed May, 2021).