サルでもわかる自由度調整済み決定係数
本記事のゴール
自由度調整済み決定係数の式を見ても
なぜ自由度で割るか分からない、普通の決定係数との使い分けが分からない
という悩みをクリアにする
決定係数のおさらい
残差平方和を偏差平方和で割った値は0から1の値になり、この値を1から引いたものが決定係数になる
つまり、回帰モデルで説明できない観測値と推定値の残差(差分)を0から1に規格化したものが小さければ小さいほど決定係数の値が大きくなる
$$
R^2 = 1 - \frac{残差平方和 S_e}{偏差平方和 S_t}
$$
なお残差平方和は
偏差平方和 = 回帰平方和 + 残差平方和
という性質があることに留意すれば右辺の第2項が0から1の値になることがわかる
決定係数の落とし穴
回帰モデルの目的変数に対して説明変数の数を多くしていくと決定係数の値は大きくなり一見すると回帰モデルの精度が良くなっているように見える
しかしこれは多重共線性という事象が疑われ、説明変数自体が他の説明変数を説明し残差の値が小さくなっている状況が起きている可能性がある
なので、決定係数は「説明変数が1つの単回帰モデル」にしか適していない
→「説明変数が2つ以上の重回帰モデル」の評価には適していない
自由度調整済み決定係数の導入
説明変数が2つ以上の重回帰モデルにおいて
説明変数が多ければ多いほど決定係数の値が大きくなるような罰則項を追加する
そうすると下記のようになりこれは自由度調整済み決定係数と呼ばれる
$$
R^2 = 1 - \frac{残差平方和 S_e}{偏差平方和 S_t} × \frac{n-1}{n-1-k}
$$
ここで$${k}$$は説明変数の数であり、
$${k}$$が大きいほど第2項の分母が小さくなり全体の値が大きくなる
それに従い自由度調整済み決定係数は小さくなる
まとめ
単回帰モデルでは決定係数を使い
重回帰モデルでは自由度調整済み決定係数を使う