完全なデータが取れない世界でどうやってデータを補うか【欠測値の取り扱い】
世の中でデータ分析をしようと思ったときに問題になることの1つに、理想的なデータが得られないことがあります。
何らかの理由で失われたデータ、単純に取り忘れたり、データを取得しなくなってしまったり、アンケートで回答してくれなかったりと、完全な理想的なデータはなかなか取得できません。
こういった、何かしらの理由で取れなかった値のことを統計学では「欠測値」あるいは「欠損値」と呼びます。(missing value)
この欠測値、実は条件によって3つに分けられます。MCAR(Missing Completely At Random)、MAR(Missing At Random)、NMAR(Not Missing At Random)の3つです。
よく数学の証明なんかを見ていると、これ初めに考えた人天才だな!って思うことがあるのですが、この3つも天才だと思いました。
MCARは欠測が完全にランダムに起きる場合、MARは欠測が欠測以外の値に依存して起きる場合、NMARは欠測が欠測に依存する場合ってことになっています。
これらは3つとも独立に見えるのですが、MCARはMARに含まれていますし、MARはNMARに含まれています。
それでですね、実際にデータ分析の際に、欠測値がMCAR、MAR、NMARのどれに当たるのかを見極めなければありません。こればっかりはデータを見て、なぜ欠測になってしまっているのかを考える必要があり、分析者の腕の見せどころでもあります。
欠測値は、それが発生した条件によって対処の仕方が変わります。ゆえにその欠測値がMCARなのかMARなのかNMARなのかは非常に重要です。MCARと考えられるときは使える方法もMARのときは使えなかったりします。
その手法について詳しく解説はしないのですが、ざっくり見ていきましょう。
欠測値がMARの場合は簡単です。完全にランダムに欠測が起こっているという状況なので、その欠測値を除いてデータ分析をしてもほとんど問題ありません。この欠測値を取り除く方法はリストワイズ法やペアワイズ法があります。
またMARの場合も何とかなります。これは欠測値が欠測値以外の値に依存している状況です。この場合、欠測値以外の値を使って欠測値を推測します。統計学の手法としては、最尤法と呼ばれる推測方法があるので、これより欠測値を推測し、データ分析を行うことができます。
しかし、NMARの場合はどうしようもできません。欠測値が欠測値に依存している(例えば、非常に大きい値や小さい値は欠測値になってしまうときとか)状況では、最尤法による欠測値の推測はできませんし、リストワイズ法やペアワイズ法を使うと、結果に偏りが出てしまいます。
もしデータ分析をするときに欠測値があったら、これはMCARなのか、それともMAR、いや、NMAR?というふうに考えてみてください。もしかしたら今までは欠損値があったらすぐに削除していたかもしれません。
けれども、それが有効なのはMCARのときだけです。MARのときは最尤法を、NMARのときは専門家に尋ねるなどが最善でしょう。まずはなぜ欠測値になっているのか考えるところから始めましょう!
Twitterでnoteの記事をまとめて通知しています。良かったらフォローしてね~