回帰分析のp値とは
のすけです。
統計学の勉強をしていると回帰分析という手法に出会います。その結果を見る際に、色々と解釈が必要ですよね。
今回は回帰係数のp値ってどんな意味があるかについて、解説していきます。
回帰分析結果にあるp値とは
回帰係数のp値とは、線形モデルにおける個々の係数が統計的に優位であるかを判断するための評価値です。
これにより、回帰係数が予測に影響を与えているのかどうか、それは偶然ではないかということを判断します。
p値というくらいなので、背後では検定が行われています。
以降は検定の内容を抑えてこのp値がどのように与えれるのか、その過程ついてみていきます。
検定の内容
なぜ検定が必要なのかについてまず述べます。本来は回帰係数を求めるとき、特定の標本(データ)から最小二乗法などを行います。
このとき、母集団からたまたま得られた標本(データ)を用いて回帰係数を求めています。
つまり標本(データ)によって回帰係数は変化するため、回帰係数を確率変数と見ることができるのです。
→回帰係数が確率変数であるならば標本(データ)から得られたその推定値がどの程度信頼できるのか?
これが検定のモチベーションとなっています。
回帰係数の検定では、個々の係数について次の帰無仮説$${H_0}$$と対立仮説$${H_1}$$を設定します。
$${H_0}$$: $${\beta_i = 0}$$ ($${i }$$番目の説明変数は目的変数に影響を与えていない)
$${H_1}$$:$${\beta_i \neq0}$$ ($${i }$$番目の説明変数は目的変数に影響を与えている)
その係数は0ではないことを統計的に主張したいってことです。
回帰係数の検定には、通常t検定が使用されます。(母集団の分散が未知のため)
帰無仮説の下で、以下のt値が自由度$${ n-d-1}$$(n:データ数、d:特徴量数)のt分布に従います。
$$
t =\frac{ \hat{\beta_i}-0}{SE(\hat{\beta}_i)}
$$
$${\hat{\beta}_i}$$はi番目の特徴量の係数、$${SE(\hat{\beta_i})}$$は$${\hat{\beta_i}}$$の標準誤差です。
ここでのp値が小さければ帰無仮説が棄却され、対立仮説が採択されるということです。
注意点
p値が小さい=目的変数への影響度が大きい ではない。
p値の大きさはあくまで係数が0でないかの検定についての指標なので、回帰係数の大きさとは独立しています。
この記事が気に入ったらサポートをしてみませんか?