ブルーリモート

日々の学びや感じたことを書いていきます。

ブルーリモート

日々の学びや感じたことを書いていきます。

最近の記事

回帰分析で決定係数を良く見せるには

回帰分析において当てはまりの良さを評価するための指標である決定係数。 0以上1以下の値をとり、1に近いほどよく当てはまっていると解釈します。例えば、決定係数が0.2のモデルと0.6のモデルがあるとき0.6のモデルの方が当てはまりが良いと解釈されます。 しかし、そのような解釈が不適切な場合があります。それは次のような場合です。 決定係数が0.2のモデル $$ y_i = b + a x_i + u_i $$ 決定係数が0.6のモデル $$ y_i = a x_i + u

    • 回帰分析を学ぼう

      ExcelとかRとかPythonなどさまざなソフトウェアで手軽に回帰分析は実行できる。加えて、回帰分析は直感的にもわかりやすい。 ただ、個人的には出力される結果をきちんと理解せずに使っていた。例えば、p値は0.05より小さければ問題無いとか、決定係数は1に近いほど当てはまりが良いといった程度の理解だ。p値の0.05が何を意味するのかとか、そもそも決定係数ってどのように求めるのかといったことはスルーしてきた。 多くのソフトウェアでは、回帰分析を実行すると推定結果以外に分散分析

      • 回帰分析の出力結果:係数

        単回帰分析において推定すべきパラメータは2つあり、傾きと切片である。 最小二乗法による推定では、傾きは説明変数の分散を説明変数と目的変数の共分散で割った値であり、切片は回帰式が平均値を通ることから傾きを代入して求められる。 つまり、単回帰分析で回帰式を求めたい場合は、$${x, y}$$の平均値と分散$${s_x^2}$$と共分散$${s_{xy}}$$が分かれば求められる。

        • 回帰分析の出力結果:自由度調整済み決定係数

          決定係数と自由度をもとに自由度調整済み決定係数が算出される。 決定係数は自由度が考慮されていないので 説明変数を追加すればするほど改善される。 決定係数のそのような欠点を補うのが 自由度調整済み決定係数だ。 $$ adj R^2 = 1 - \frac{(1-R^2)(n-1)}{n-k-1} $$ 算出式の意味合いとしては、 残差によって説明できた割合$${1-R^2}$$に対して 残差の自由度$${n-k-1}$$で割ることで 1自由度あたり残差で説明できた割合を出

          回帰分析の出力結果:自由度

          自由度(degrees of freedom)は、 回帰の自由度と残差の自由度の2つある。 回帰の自由度は、回帰式における係数の数。 ただし、定数項は除く。 一方で、残差の自由度は、データの行数から 回帰の自由度と1(定数項の分)を引いた数。 1を引くのは定数項の分である。 回帰分析を行うときに、データ数が パラメータ数より大きい必要があるが、 これは残差の自由度を確保するため。 残差変動を小さくすることが回帰分析における 1つのモチベーションであるが、その残差の 自

          回帰分析の出力結果:自由度

          回帰分析の出力結果:決定係数

          回帰分析のあてはまりの良さを示す 指標の1つに決定係数(R square, coefficient of determination)がある。 決定係数は、0以上1以下の値をとり、 1に近いほどよくあてはまっている と解釈する。 どうして0以上1以下になるかというと 回帰変動を全変動で割って求めるため。 決定係数 = 回帰変動 / 全変動 また、 全変動 = 回帰変動 + 残差変動 より、残差変動を全変動で割った値を 1から引いた値に等しい。 決定係数を改善する

          回帰分析の出力結果:決定係数

          回帰分析の出力結果:回帰変動と残差変動

          目的変数のばらつき度合を示す全変動。 回帰分析をすることで回帰変動と残差変動に分かれる。 回帰変動(Explained Sum of Square, ESS)は説明変数によって説明された変動。 残差変動(Residual Sum of Square, RSS)は全変動のうち回帰変動では説明できなかった変動。 回帰変動と残差変動の和が全変動と等しくなる。 説明変数によって説明された変動が回帰変動であるため、回帰変動は大きいほど好ましく、 逆に説明し切れなかった変動である残

          回帰分析の出力結果:回帰変動と残差変動

          回帰分析の出力結果:全変動

          回帰分析を実行して出力される分散分析表。 その中の全変動(Total Sum of Square, TSS)について。 目的変数のばらつき度合を示す統計量。 目的変数がどの行も1, 1, 1 みたいに 全て同じ値だとばらついてないから0となる。 でも、そんなことはないわけで、 目的変数は色々な値をとる。 その色々な値のちらばりを一つの数字で 示した物が全変動。 説明変数を使って、この全変動をなるべく 多く説明したい、というのが回帰分析の 一つのモチベーション。 回帰分

          回帰分析の出力結果:全変動