データ分析をする際の注意点

2023年9月20日 21:58

　仕事・副業・大学院でのPBL活動を通じて学んだデータ分析をする際の注意として、交絡バイアスの観点からまとめてみる。

　データ分析を行う際に交絡因子を見落としている状態で分析をしてしまい、間違った結論を出してしまうことは避けなければならない。

交絡バイアスは、処理群に選ばれた人と実験の結果の両方に、ある変数が影響を与えているときに生じる。この変数が交絡因子であり、既知の場合もあれば、存在が疑われるだけの場合もある。後者の場合、その交絡因子は「隠れた第三の変数（潜伏変数）」として作用する。

引用：因果推論の科学「なぜ？」の問いにどう答えるか

そのためにも物事の背後から影響を与えている事象がないかを常に考えて、交絡因子の存在がないかを考えることが重要である。また、そもそもデータとして現れない事実があることを忘れてはいけない。

統計的因果推論を学ぶ際には，何が観測されていて，何が観測されていないのか，常に気を付ける必要がある．観測されている事実だけから，ナイーブに結論を出さないように気を付ける必要がある．このような考え方を反実仮想あるいは反事実モデル（counterfactual model）という．

引用：統計的因果推論の理論と実装 (Wonderful R)

　交絡因子の見落としを無くすためにも、因果ダイアグラムを作成して事象を整理することが重要となる。以下引用のように、データがどのような過程で生成されるかを意識できていないと交絡因子の見落としが出てきてしまう。

　誤解してほしくないのは、データを集約するのは常に良くない、データは常に個別に見るべき、と言っているわけではないことだ。良いかどうかはデータがどのような過程で生成されるかで変わってくる。モンティ・ホールのパラドックスでは、ゲームのルールを変更すれば、結論もそれに伴って変化した。

引用：因果推論の科学「なぜ？」の問いにどう答えるか

　ここまでの記述は「確かに見落としてはならない！」となるのだが、現実で考えた時に（一般的なデータや指標の意味合いであったり生成過程であったりはイメージできたとしても）企業によってデータ構造・行動・文化には違いがある。私のように外部として関わっていて、且つ短い納期の中で完全に理解することはまず不可能ではないかと感じる。そこで重要になるのが、具体的なデータ分析を進める前に、相手を積極的に巻き込んで共通認識を持つことである。以下の引用の通り、データ分析の妥当性をチェックできる状態にすることができれば交絡因子を見落としていたり、構造の解釈違いがあったりした時にも気付きやすくなる。

本当に共有すべきことは、次のような、データ分析の一連のストーリーです。
① 何のために、何を知ろうとしたか
② そのためにどんな仮定を置き、どの範囲を考えに入れたか
③ どんなデータを使って、どんな意味合いの数字を出したか
　データ分析の考え方が、このような一連のストーリーとして共有されなければ、ある人が行ったデータ分析の妥当性を、誰もチェックできません。

引用：本物のデータ分析力が身に付く本

　今までの経験上、「データを渡せば分析は勝手にやってくれるもの」と思われていると共通認識を持つところがぐだぐだになりやすい。私が副業でデータ分析をする際に最初に作る工程表では、ディスカッションの予定を意識的に複数回設けている。キックオフの時にも、データ分析の妥当性を様々な視点からチェックしてほしい旨を丁寧に説明するようにしている（ちなみに現在は、可視化した分析の概念図をもとにディスカッションすることが多いが、ここのやり方は今後も試行錯誤していきたいと思っている）。それでも上手く進まない時もあるのだが、交絡バイアス以前の問題だったりもするのでまた別のnoteでまとめていきたい。