データ分析をする際の注意点
仕事・副業・大学院でのPBL活動を通じて学んだデータ分析をする際の注意として、交絡バイアスの観点からまとめてみる。
データ分析を行う際に交絡因子を見落としている状態で分析をしてしまい、間違った結論を出してしまうことは避けなければならない。
そのためにも物事の背後から影響を与えている事象がないかを常に考えて、交絡因子の存在がないかを考えることが重要である。また、そもそもデータとして現れない事実があることを忘れてはいけない。
交絡因子の見落としを無くすためにも、因果ダイアグラムを作成して事象を整理することが重要となる。以下引用のように、データがどのような過程で生成されるかを意識できていないと交絡因子の見落としが出てきてしまう。
ここまでの記述は「確かに見落としてはならない!」となるのだが、現実で考えた時に(一般的なデータや指標の意味合いであったり生成過程であったりはイメージできたとしても)企業によってデータ構造・行動・文化には違いがある。私のように外部として関わっていて、且つ短い納期の中で完全に理解することはまず不可能ではないかと感じる。そこで重要になるのが、具体的なデータ分析を進める前に、相手を積極的に巻き込んで共通認識を持つことである。以下の引用の通り、データ分析の妥当性をチェックできる状態にすることができれば交絡因子を見落としていたり、構造の解釈違いがあったりした時にも気付きやすくなる。
今までの経験上、「データを渡せば分析は勝手にやってくれるもの」と思われていると共通認識を持つところがぐだぐだになりやすい。私が副業でデータ分析をする際に最初に作る工程表では、ディスカッションの予定を意識的に複数回設けている。キックオフの時にも、データ分析の妥当性を様々な視点からチェックしてほしい旨を丁寧に説明するようにしている(ちなみに現在は、可視化した分析の概念図をもとにディスカッションすることが多いが、ここのやり方は今後も試行錯誤していきたいと思っている)。それでも上手く進まない時もあるのだが、交絡バイアス以前の問題だったりもするのでまた別のnoteでまとめていきたい。