DS25:単回帰分析【データサイエンティスト検定(リテラシーレベル)補習ノート】
データサイエンティスト検定(リテラシーレベル)の公式リファレンスブックで躓いたところをまとめていきます。
最小二乗法による単回帰の回帰係数の求め方
テキストに記載がなさそうなのでメモしておきます。回帰式がy=ax+bで求められるとした場合、回帰係数aは次の計算式で求められます。分子がxとyの共分散、分母がxの分散になっています。
aが求まれば、x,yの平均値を回帰式に入れればbが求まります。
Excelでは散布図で近似曲線を追加すればすぐに求められます。
Pythonではscikit-learnのLinearRegressionを使うのが簡単だと思います。
標準誤差の計算方法
標準誤差(Standard Error)は一般的に標本平均の標準偏差を意味します。標本の分散は不偏分散を用いるので次のようになります。
データ数nが大きくなると標準誤差は小さくなります。(DS82参照)
モデルの誤差の評価
決定係数やRMSE(Root Mean Square Error)を使うことが多いと思います。(DS39参照)