回帰モデルの予測変数の選び方
モデル選択の方法,予測変数の選び方についてSurvival Analysisの講義をうけたのでまとめる.
基本的にStep-wiseは使用しない
ロジスティック回帰でも,Coxモデルでも回帰モデルの予測変数を選択する際に,forwards selectionとstep wise selectionは使用しないほうが良い.3つ目の選択肢であるbackwards eliminationは時々うまくいくことがある.文献やその分野の専門家からの先験的な知識を利用し事前に決定することがスタンダードであることは言うまでもないが,常に十分な予測変数を把握できているわけではない.なんだかんだで,多くの先験的知識を持っていて結果に関連していることが判明している多数の予測因子が既知であることはあまりない.そのような状況では,選択されたすべての予測変数を持つモデルにbackwards eliminationを適用することが有用であることがある.
Backwards eliminationの適用方法
手順は次のとおりである.
1.まず,すべての選択された予測変数を含むモデルをフィットする.( すべての既知の予測変数またはすべての利用可能な予測変数)
2.そのモデルのすべての係数を格納する
3.p値が事前設定されたしきい値を超えるすべての予測変数を一度に削除する(通常は通常0.05)(この変形では,最も高いp値を持つ予測変数を削除してモデルを再フィットし,すべての予測変数が選択されたしきい値を超えるp値を持つまでステップを繰り返す).
4.残りの予測変数の係数をオリジナル・モデルからのそれらの係数と比較する
Backwards eliminationを使用する場合のチェック
係数が元のモデルからあまり変化していなければ、これで最終的なモデルができる.次に残差と他のモデルの仮定をチェックする.しかし,係数が顕著に変化した予測変数がある場合,この影響を受けた予測変数と相関している削除した変数を見つける必要がある.
これは,頑張ってやるしかなく,影響を受けた予測変数の係数が元の値に戻るまで削除した変数の1つずつ追加していく.もとに戻った時はモデルの中で削除された変数を維持する必要がある.
たとえば、変数で血圧が残っていたとして(オリジナル・モデルHR=1.30, p=0.002),変数:コレステロールが統計的に有意ではなかったので削除されたとする(オリジナル・モデルHR=1.05, p=0.155)
元のモデルからコレステロールを削除すると、血圧のHRは1.30から1.50に変化した.これが,懸念のある大きな変化であれば,コレステロールを元に戻す.そうすると,血圧の元のHRが復元される.これで,最終モデルに血圧とコレステロールの両方を保持する必要があると判断する.
しかし,このような変数間の相関が,ステップワイズが信頼できない大きな理由の1つでもある.
以上のように線形回帰,ロジスティック回帰,Cox回帰,または他のタイプの回帰モデルにおいて,どのように予測変数を選択するかという問題は,可能な予測変数の数が多い場合には,大きな問題となる.
Author:Y