欠損値の取り扱い
苦労してデータを取り溜めて,いざ解析作業に移るとき・・・
「あれ・・・,欠損値があるんだけど・・・」
このような場合,みなさんはどのようにして欠損値を取り扱っていますか?
以下,欠損値の取り扱い方についてまとめてみました.
こうみてみると,欠損値の取り扱いだけでもかなり奥が深いですね(苦笑)
なお,近年は消去法や単一代入法よりも,多重代入法が主流となっています.
<欠損値の種類と対処法>
①「missing completely at random(MCAR)」:
わかりやすく言うと,たまたま欠損値が生じてしまった場合.
→<対処法>どのような手法を使用しても母集団の推定に影響しない.
②「missing at random(MAR)」:
例)男性よりも女性の方が体重測定のある日に学校を休む傾向があり,
欠損値が生じてしまった場合.
→完全情報最尤法や多重代入法を用いる.
③「missing not at random (MNAR)」:
例)体重測定のある日に肥満者が学校を休む傾向にあり,
欠損値が生じてしまった場合.
→いかなる手法を用いても母集団の推定に影響を及ぼしてしまう.
<欠損値が生じた場合の対処法の長所と短所>
1.欠損値データを消去する方法
長所:
・方法が簡単
・MCARの場合や欠損値を含む割合が少ない場合は使用OK.
短所:
・せっかく取ったデータが無駄になる.
・削除した割合が多いとデータの妥当性が怪しくなる.
また結果に偏りが起きる可能性がある.
2.欠損値に別のデータを入力する方法
1)単一代入法
①平均値を代入
②欠損値を含む人と属性の似ている人の値を代入(hot-deck imputation)
③重回帰式などによって値を推定して代入(cold-deck imputation) など
→MCARに対しては使用 OK.
MCAR以外は結果に偏りが起きる可能性がある.
2)多重代入法
MCARやMARに適した手法.
欠損データの分布から独立かつ無作為に抽出されたM個(M>1)の
シミュレーション値によって欠損値を置き換える手法.
多重代入法の詳細については,高橋先生の著書がわかりやすいですよ〜.
https://www.amazon.co.jp/欠測データ処理-Rによる単一代入法と多重代入法-統計学One-高橋-将宜/dp/4320112563
最後までお読みいただきありがとうございました.