DS25:単回帰分析【データサイエンティスト検定(リテラシーレベル)補習ノート】

データサイエンティスト検定(リテラシーレベル)の公式リファレンスブックで躓いたところをまとめていきます。

最小二乗法による単回帰の回帰係数の求め方

テキストに記載がなさそうなのでメモしておきます。回帰式がy=ax+bで求められるとした場合、回帰係数aは次の計算式で求められます。分子がxとyの共分散、分母がxの分散になっています。

画像1

aが求まれば、x,yの平均値を回帰式に入れればbが求まります。

画像2

Excelでは散布図で近似曲線を追加すればすぐに求められます。

Pythonではscikit-learnのLinearRegressionを使うのが簡単だと思います。

標準誤差の計算方法

標準誤差(Standard Error)は一般的に標本平均の標準偏差を意味します。標本の分散は不偏分散を用いるので次のようになります。

画像3

データ数nが大きくなると標準誤差は小さくなります。(DS82参照)

モデルの誤差の評価

決定係数やRMSE(Root Mean Square Error)を使うことが多いと思います。(DS39参照)

参考文献


いいなと思ったら応援しよう!