欠損値はどのように取り扱うと良いでしょうか?
観測やアンケート調査によって得られるデータに欠損(あるいは欠測)値があるのは、ごくごく普通のことです。
では一般に学習用に使用するデータに欠損がある場合、そのデータの適切な処理方法にはどのようなものがあるでしょうか?
大別すると、
・欠損値のあるデータ(レコードあるいは変数)は除外する方法
・欠損値を適切な値で補完する方法
に分けられます。
もちろん前者の対応で済む場合は大変楽ですが・・・、サンプル数が少なくなる点や、欠損値の発生原因によっては、分析結果に偏りを生む問題もあります。
例えば、アンケート調査で年収や健康状態に関わる項目があった場合、低所得者や健康不良者ほど無回答が多く、無回答データの削除の結果として高所得側、健康優良側寄りの分析結果に偏ります。
次に、欠損値を補完する方法に関しては、よく取られる例では
・ 連続変数の場合
欠損値を持つフィールドの平均値あるいは最大・最小値を使用する
・ カテゴリー変数の場合
最頻値を用いる、あるいは欠損値用のカテゴリーを追加する
・ 時系列データ
データ列の連続性を仮定して前回値、前後の平均値あるいは線形補間等
を用いる
・ ホットデック補完法
属性の似ているデータを同じデータセット内から選び、その値で補充す
る
・ 回帰分析による補完法
欠損値以外の属性で補完対象を予測
上記のような、欠損値に一つの値を補う単一代入法に対して、多重代入法やEMアルゴリズムと呼ばれる拡張手法も知られています。
ニューラルワークスPredictでは、欠損データの割合に応じてデータの除外あるいは補完が自動的に選択・実行されます。
貴重なデータを偏りなく最大限に活用する目的を実現するために、現場の意見を参考に問題に応じてどの補完方法を取るべきかを、その選択による悪影響が最小限となるよう注意深く判断してください。
※弊社では、データ分析プロジェクトにまつわる様々なご相談に、過去20年
以上に渡るプロジェクト経験に基づき、ご支援しています。
社内セミナーの企画やシステム開発等、お気軽にご相談いただければ幸いです。
製品カタログ