決定係数
前回、単回帰分析を説明したが、単回帰分析で推定された回帰式のあてはまりの良さを表わす指標として「決定係数(R²)」がある。これは、モデルの説明力、つまりモデルがどれだけデータの変動を説明できるかを評価するものである。
例えば、R²が0.8なら、そのモデルはデータの変動の70%を説明できているということになる。R²が0に近い場合、そのモデルはほとんどデータの変動を説明できていない。
分析対象のデータに対して線形回帰モデルを構築して、決定係数(R²)の求める。
全変動=回帰変動+残差変動 という関係式がある。
全変動: データ全体の平均値から各データ点の実際の値との差。
回帰変動:推定された回帰式から得られた予測値とデータ全体の平均値の差
残差変動:実際のデータと推定された回帰式から得られた予測値との差。
これら3つの変動は、二乗和(平方和)として考える。
決定係数は、回帰係数を全変動で割ってもとめる(回帰変動が全変動に対する回帰変動の割合)。
全変動=回帰変動+残差変動 という関係式がある。
RSS:残差平方和、TSS:全変動の平方和として、関係式全体を全変動を割って整理すると、
決定係数 : R²=1−𝑅𝑆𝑆/𝑇𝑆𝑆
決定係数は、モデルの妥当性を評価するために使われる。しかし、これだけで判断せずに、汎化性能を見ていく必要もある。未知のデータに対する予測の正確さも大切である。
ありがとうございます。