平均への回帰

https://www.jstage.jst.go.jp/article/jjaam1990/12/7/12_7_333/_pdf

ある値を計測したとき,例えばハイスコア,ミドルスコア,ロースコアのグループから同数ずつサンプルを取り出し,2回目を計測すると,ハイスコアグループの平均は低くなり,ロースコアグループの平均は高くなる.
これは計測値が真の値ではなく,確率分布に従って出現することによる現象である.スコアが高く出たグループは真の値も高いという可能性と,たまたま高い値が計測された可能性がある,このグループをもう一度計測すると,真の値が高いサンプルは再び高い値を出す可能性が高いが,たまたまのサンプルは1回目よりも低い値を出す可能性が高い.よってグループ全体の平均も1回目よりも低くなる.
これは一種の選択バイアスである.

これを回避するには?
2回目以降も全サンプルを計測する?それは時間も費用も掛かる

共分散分析,カテゴリカルデータ入りの重回帰分析
カテゴリによる目的変数への影響の違いとカテゴリごとの説明変数(共変数)の影響を計算する.
これに曲線的関係を表す項や交互作用項を入れたりしながら,何がクリティカルに影響しているかを調べる.

さらに,共分散分析のmultilevel modelというのが流行り(2001年)
切片や係数にも誤差項を入れる(切片や係数も確率変数である)と考えるモデルである.

あんまりしっくりきていない.
カテゴリカルデータを入れるとグループ内のばらつきを考慮できるのはなぜ?そんなことはないのでは?

この記事が気に入ったらサポートをしてみませんか?