欠損値の取り扱い

苦労してデータを取り溜めて,いざ解析作業に移るとき・・・

「あれ・・・,欠損値があるんだけど・・・」

このような場合,みなさんはどのようにして欠損値を取り扱っていますか?

以下,欠損値の取り扱い方についてまとめてみました.
こうみてみると,欠損値の取り扱いだけでもかなり奥が深いですね(苦笑)
なお,近年は消去法や単一代入法よりも,多重代入法が主流となっています.

<欠損値の種類と対処法>

①「missing completely at random(MCAR)」
わかりやすく言うと,たまたま欠損値が生じてしまった場合.

  →<対処法>どのような手法を使用しても母集団の推定に影響しない.

「missing at random(MAR)」
例)男性よりも女性の方が体重測定のある日に学校を休む傾向があり,
  欠損値が生じてしまった場合.

  →完全情報最尤法や多重代入法を用いる.

③「missing not at random (MNAR)」: 
例)体重測定のある日に肥満者が学校を休む傾向にあり,
  欠損値が生じてしまった場合.

 →いかなる手法を用いても母集団の推定に影響を及ぼしてしまう.


<欠損値が生じた場合の対処法の長所と短所>

1.欠損値データを消去する方法

長所:
 ・方法が簡単
 ・MCARの場合や欠損値を含む割合が少ない場合は使用OK.
短所:
 ・せっかく取ったデータが無駄になる.
 ・削除した割合が多いとデータの妥当性が怪しくなる.
  また結果に偏りが起きる可能性がある.

2.欠損値に別のデータを入力する方法

1)単一代入法
 ①平均値を代入
 ②欠損値を含む人と属性の似ている人の値を代入(hot-deck imputation)
 ③重回帰式などによって値を推定して代入(cold-deck imputation) など
 →MCARに対しては使用 OK.
  MCAR以外は結果に偏りが起きる可能性がある.

2)多重代入法
 MCARやMARに適した手法.
 欠損データの分布から独立かつ無作為に抽出されたM個(M>1)の
 シミュレーション値によって欠損値を置き換える手法.

 多重代入法の詳細については,高橋先生の著書がわかりやすいですよ〜.

https://www.amazon.co.jp/欠測データ処理-Rによる単一代入法と多重代入法-統計学One-高橋-将宜/dp/4320112563

最後までお読みいただきありがとうございました.

いいなと思ったら応援しよう!