回帰分析で決定係数を良く見せるには

回帰分析において当てはまりの良さを評価するための指標である決定係数。
0以上1以下の値をとり、1に近いほどよく当てはまっていると解釈します。例えば、決定係数が0.2のモデルと0.6のモデルがあるとき0.6のモデルの方が当てはまりが良いと解釈されます。

しかし、そのような解釈が不適切な場合があります。それは次のような場合です。
決定係数が0.2のモデル

$$
y_i = b + a x_i + u_i
$$

決定係数が0.6のモデル

$$
y_i = a x_i + u_i
$$

2つのモデルの違いとしては、決定係数が高いモデルには定数項がありません。なぜ定数項を無しにすると決定係数が良くなるのでしょうか?これは決定係数がどのように求められるかを理解しておく必要があります。

決定係数は、回帰変動を全変動で割った値です。(残差変動を全変動で割った値を1から引くことでも求められます。)全変動のうち、どのくらいの割合を回帰変動で説明できたかが決定係数の意味するところですが、切片の有無によって全変動の定義が異なります。

切片ありの場合、全変動は目的変数の平均値からの差の二乗和となります。一方で、切片なしの場合、全変動は目的変数の二乗和となります。単に二乗して和をとるので全変動は大きくなります。この大きくなった分というのは切片が説明していた変動です。
回帰分析を通して全変動は回帰変動と残差変動の和に分解されますが、切片を無くした影響で生まれた変動の多くは回帰変動によって説明されます。このため、切片ありモデルと比べて分母と分子が共に大きくなり、決定係数が良くなったように錯覚してしまいます。そもそも考えている回帰モデルが異なることを踏まえ、全変動の定義が異なるために単純な比較ができないことに留意する必要があるわけです。

改めてまとめると、決定係数の比較においては、その導出過程を理解して比較が妥当であるかを検討した上で評価する必要があります。


いいなと思ったら応援しよう!