単回帰分析〜超入門編〜
あまりにも勉強不足なので自分の理解促進、あとで振り返るためのアウトプット。読みやすい形は意識しない(いつか伝えることを意識したアウトプットもするかもしれない。時間があれば)
超入門なので正確な理論的背景には深入りせずに、概要だけまとめることとする。
『多変量解析法入門』(永田・棟近,2001,サイエンス社)を参考にしている。
単回帰分析とは
一つの独立変数(説明変数)xと一つの従属変数(目的変数)yの間の線形関係(一次関数で表される直線的関係を想定)をモデル化し、その関係性を解析する統計的手法
厳密性に欠けるかもしれないが私はこう認識した。
解析の大まかな流れ
①単回帰モデルの推定
$$
y_i = \beta_0 + \beta_1 x_i + \epsilon_i \\
\epsilon \sim \mathcal{N}(0, \sigma^2)
$$
(誤差$${\epsilon_i}$$は互いに独立に$${N(0, \sigma^2)}$$に従う)
を想定し、回帰母数$${\beta_0}$$,$${\beta_1}$$を最小二乗法により単回帰モデルを推定する。
当たり前だが、我々が求められる回帰係数は標本集団(x,y)から求められる推定量でしかないため、これから母数の推定をする必要がある。
②回帰式の性能の評価(寄与率などを用いる)
母数の推定に入る前に、そもそもの推定量が適切か、つまり、推定された単回帰モデルは標本集団に適合しているかどうかを確認する必要がある。適合度が低いのにも関わらず、母数の推定を行うと精度の低い推定となってしまう。
③回帰係数$${\beta_1}$$について検定・区間推定を行う
まずは、母回帰係数$${\beta_1=0}$$でないことを検定で確認し、説明変数xが目的変数yに有意な影響を与えていることを示す。
有意な影響を与えていないと判断された場合、目的変数を再度設定し直す必要がある。
次に、母回帰係数$${\beta_1}$$の区間推定を行う。これにより、推定量$${\hat{\beta_1}}$$の信頼性を評価することができる。
④残差とテコ比の検討を行い、得られた回帰式の妥当性を評価する
まずは、残差(縦軸)と説明変数(横軸)の散布図を作成する。
残差が0付近に集中している場合、大きな問題は無いと言えるが、新たな説明変数を追加することで精度を上げる余地は残されている可能性がある。
また、説明変数を大きくするに従って、残差の絶対値が大きくなる場合、つまり、
「<」
このような形にプロットされる場合、目的変数を対数変換することでモデルの精度を上げられる可能性がある。
次に、特異点が存在する場合、その背景を探ることで、異常値であれば排除、異常値でなければその特異を説明する変数をモデルに追加することでモデルの精度を上げられる可能性がある。
他にも、プロットが二次曲線のように分布する場合、説明変数を2乗することでモデルの精度を上げられる可能性がある。
このように、残差と説明変数の散布図から、モデルの精度向上のためのヒントを得ることができる。
次に、テコ比を検討する。テコ比とは、「各サンプルがモデルに与える影響の大きさ」を表す。
「各サンプルがモデルに与える影響の大きさ」は、「各サンプルの説明変数を変えずに、目的変数を微量に変化させた際の回帰推定値の変化量」で表現できる。
最小二乗法で求められた回帰式は必ずサンプルの中心を通るため、テコ比は説明変数$${x_i}$$が$${\bar{x}}$$に近いほど小さく、離れるほど大きくなる。テコの原理のイメージ。
つまるところ、「各サンプルがモデルに与える影響の大きさ」は、「中心$${\bar{x}}$$からの$${x_i}$$の離れ具合(統計的距離)」で評価できる。
テコ比はxの値のみから計算されるため、データを採取する際に調整が可能であれば「テコ比の平均=2/n程度」を目安に工夫できると良い。