本の紹介「反事実と因果推論」
Counterfactuals and Causal Inferenceの訳本である「反事実と因果推論」を読んでいます。近年国内でも盛り上がりを見せている因果推論の網羅的な参考書で、予約してから1年ほど楽しみに待っていました。
まだ読んでいる最中で、内容も物理的にもゴツくてなかなか進まないのですが、読まねばならない本の一つだと思ってちょこちょこ読んでいます。
実に深く考えさせられる本で、特に次の一節にはしびれました。
これは、観察データに対して回帰分析を行うときに直面する問題を如実に表している一節でもあります。交絡因子の問題と向き合うと、観察データで因果推論を行うことの難しさといったら……。
しかし、私が取り組んでいるピープルアナリティクスは観察データに対する分析が主要タスクであるため、この問題から目を背けるわけにはいきません。
条件付き確率モデルという形で重回帰をシンプルに捉えるのであれば、記述と予測が主たる用途となるでしょう。実際、きちんとした統計解析の本では、最小二乗法に基づく重回帰の用途は記述もしくは予測であるとはっきりと書いています。加えて、丁寧な教科書なら相関≠因果の解説もついています。
重回帰を予測の用途に使う場合、幾分気楽に使えます。要は予測が当たればいいわけで、クロスバリデーションやAICを使って丁寧にモデル選択をしていけば問題は起きにくいはずですので。
ただし、予測は機械学習の主戦場になりつつあるので、必ずしも伝統的な重回帰だけを使う必要はありません。あくまで重回帰は予測手法のひとつ。データ項目が多くばらつきが多様である場合や、データがノイジーである場合は、ピュアな重回帰の出番は減ってくるでしょう。
例えば、Pythonの機械学習ライブラリscikit-learnのチュートリアルでガイドされる線形回帰モデルは、最小二乗法に基づく重回帰でなくSGDRegressorになっています。SGDRegressorはパラメータの推定に確率的勾配降下法を用いている上、罰則付きモデルになっていて正則化も効きます。もちろん、勾配ブースティングやDNNなど予測に強い非線形モデルもありますので、線形モデルにこだわる必要もありません。いずれにせよ、クロスバリデーションの元で最良のモデルを選択することになるはずです。
となると、観察データに対する重回帰の主たる用途は「記述」ということになるのですが、それについても本書では鋭く突っ込みを入れています。
手元にあるデータが母集団からのランダムサンプリングされた標本で、母集団全体の構造を記述したい、という場合は記述的分析に有用な場面があるのでしょう。しかし、その中の個体に対する介入、つまりは何らかの改善施策に対する効果を推測したい場合には、記述的な分析では弱いということになります。
一方、記述的な分析では手元にあるデータの統計的な関係性、つまり相関を考察することは可能です。データの構造を理解したり、データ項目同士の連動性を把握したりすることはできるわけで、探索的なデータ分析には役立ちます。実際、データの初期分析の段階で重回帰を行うこともあります。
とはいえ、クライアントの期待値は「アクションプランの提示」であることは珍しくありません。これは、ピープルアナリティクスであってもマーケティングであっても同様ですが、A/Bテストの実施が難しいピープルアナリティクスではこの問題が重くのしかかります。
ではどうすればいいの?ということになるのですが、この問題に立ち向かうための武器も本書に提示されています。
ここからが本番ということで、日々勉強です。
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?