アセットマネージャーのためのファイナンス機械学習: 特徴量の重要度分析 p値について

 説明変数の重要度を決定する目的で、仮説検定を使用し、有意性を表現するのがp値である。このp値は、その説明変数の真の係数がゼロである仮説のもとで、推定した結果と同等かそれ以上の極端な結果が得られる確率である。つまり、p値は、指定された統計モデルとデータがどれだけ矛盾しているかを示す値である。
 例えば、回帰の優位性の検定において、帰無仮説(対立仮説)の$${H_0}$$が真であることを条件とし、推定回帰係数$${\beta}$$と同程度以上に極端な結果を得る確率がp値であり、$${\beta}$$が条件な$${H_0}$$が真である確率を示すものではない。
 p値にも偽陽性を偽陰性があり、説明変数が互いに相関する多重共線性を持っている場合、代替効果が入り、推定は強固なものではなくなるし、イン・サンプルを使って優位性の評価を行う場合、アウトオブサンプルで同じ検定をしても同じ結果が得られるとは限らない。
 p値の注意点として、以下の4点が挙げられる

  • p値は与えられた仮定に依存するため、仮定が正しくない場合、偽陽性や偽陰性を示す。

  • 多重共線性による代替効果で冗長な変数に影響を受けやすい

  • どの条件のどの仮定に対する確率かを理解しておく必要がある

  • p値はインサンプルでの検定で得られるため、アウトオブサンプルを含めた一般化には適合しない場合もある。

よって、仮定が複雑で、扱うデータが互いに相関しあう問題に対しては、p値だけでなく、他の方法も用いて変数の有意性を判定すべきである。

この記事が気に入ったらサポートをしてみませんか?