重回帰分析のF検定についてのメモ
統計学入門(通称赤本)に
的な記述があったが、よくわからなかったのでメモ
重回帰分析のF検定とは
手順1:帰無仮説・対立仮説の設定
帰無仮説$${H_{0}}$$:$${ \beta_{2}= \beta_{3}=…= \beta_{k}=0}$$
対立仮説$${H_{1}}$$:$${ \beta_{2}, \beta_{3}, …, \beta_{k}の少なくとも1つが0でない}$$
$${H_{0}}$$が正しいとして、重回帰方程式(説明変数を含まない切片モデル)を推定し、その時の回帰残差の平方和を$${S_{0}}$$とする。つぎに、全ての説明変数を含む重回帰方程式を推定し、その時の回帰残差の平方和を$${S_{1}}$$とする。
手順2:統計量を求める
$${F = \frac{\frac{(S_{0}-S_{1})}{p}}{\frac{S_{1}}{(n-k)}}}$$
これが「自由度$${(p, n-k)}$$のF分布$${F(p, n-k)}$$に従うことが知られている」とのこと。わかったようなわからんような。
※$${p}$$は帰無仮説の制約の個数, $${n}$$はデータの行数, $${k}$$は列数
そもそも重回帰分析のF検定でやっていることは?
直感的な理解としては「切片モデルより良いモデルが作成できたのかを確認」のことのよう
$$
F = \frac{\frac{(S_{0}-S_{1})}{p}}{\frac{S_{1}}{(n-k)}}
= \frac{(n-k)}{p} \frac{(S_{0}-S_{1})}{S_{1}}
= \frac{(n-k)}{p} \frac{\frac{(S_{0}-S_{1})}{S_{0}}}{\frac{S_{1}}{S_{0}}} - ①
$$
ここで
$$
R^{2}=1-\frac{S_{1}}{S_{0}}
$$
なので①が以下のように変形できる
$$
\frac{(n-k)}{p} \frac{R^{2}}{1 - R^{2}}
$$
つまり作成したモデルの$${R^{2}}$$が小さい時は、F値($${\frac{(n-k)}{p} \frac{R^{2}}{1 - R^{2}}}$$)が小さくなるため、帰無仮説$${H_{0}}$$が棄却されないことになる。これは$${R^{2}}$$から、作成したモデルが切片モデルより良いのかどうかを判断していることと一緒のよう。
重回帰分析の回帰係数のt検定について
$${F = \frac{\frac{(S_{0}-S_{1})}{p}}{\frac{S_{1}}{(n-k)}}}$$ ~ $${F(p, n-k)}$$
ある変数に着目すると帰無仮説は
$${\beta_{sth} = 0 }$$なので$${p = 1}$$
※※$${p}$$は帰無仮説の制約の個数
したがって
$${F = \frac{\frac{(S_{0}-S_{1})}{1}}{\frac{S_{1}}{(n-k)}}}$$ ~ $${F(1, n-k)}$$
$${X}$$ が自由度$${n}$$のt分布に従うとき、$${X^2}$$は自由度 $${(1,n)}$$のF分布に従うので、$${F = \frac{\frac{(S_{0}-S_{1})}{1}}{\frac{S_{1}}{(n-k)}}}$$ の平方根は、自由度$${n-k}$$のt分布に従うと考えることができる。そのため重回帰分析の回帰係数においてもt検定が実施できる。
本題と関係ないけどクックの距離についても…
要はF検定で実施していることは「ある列の目的関数に対する影響度」について調べています。一方でクックの距離では「ある行の目的関数に対する影響度」を調べることができます。式は以下の通り
$$
D_{i} = \frac{\Sigma(y_{j}-\hat{y}_{j(i)})^2}{pMSE}
$$
ここで
■$${y_{j}}$$は、$${j }$$番目の近似応答値
■$${\hat{y}_{j(i)}}$$は、$${i}$$ 番目の観測値を除いて近似した$${j }$$番目の応答値
■$${MSE}$$は、平均二乗誤差
■$${p}$$は回帰モデルの回帰係数の数
$${MSE = \frac{\Sigma(y_{j}-\hat{y}_{j})^2}{n}}$$ なので
$${D_{i} = \frac{\Sigma(y_{j}-\hat{y}_{j(i)})^2}{pMSE}}$$
$${= \frac{\Sigma(y_{j}-\hat{y}_{j(i)})^2}{p\frac{\Sigma(y_{j}-\hat{y}_{j})^2}{n}}}$$
$${= \frac{n}{p} \frac{\Sigma(y_{j}-\hat{y}_{j(i)})^2}{\Sigma(y_{j}-\hat{y}_{j})^2}}$$
つまりこれは「行を減らしてない時の残差の二乗の合計」と「行を減らした時の残差の二乗の合計」の比を見て、「ある行の目的関数に対する影響度」を見ているッて感じです