見出し画像

記述的分析の先へ(因果推論を学ぶための本)

記述的分析をひとことで説明するとデータの要約です。平均や分散の計算やグラフによる考察から始まり、相関分析、重回帰、主成分分析なども場合によりこの範疇に含まれます。

こうした分析はデータを俯瞰し、問題や仮説の種を得るために有用で、とりわけ問題検討の初期段階でよく実施されます。ただし、要約はデータの状況を示すだけで、必ずしもそれらのメカニズムを提示するわけではないことに注意が必要です。

相関係数が高いからといって因果関係があるとはいえません。さらに踏み込んでいうと、実験デザインを踏まえない重回帰の偏回帰係数は相関傾向しか示しません。

データ分析をはじめた2011年頃は、職場で「予測ほど難しいタスクはない」と教えられたものですが、今ではデータから因果を語る方がよほど難しいと思っています。なぜなら予測は相関レベルの情報でも達成できることがあるからです。

たしかに厳しい予測タスクもありますが、バリデーションの方法があるところが救いです。一方、実験デザインが整わない状況で因果を考察するのはどうにも大変です。交絡の問題は手強く、一筋縄ではいきません。

* * *

一方、ガートナーは2019年に分析の4段階として、「記述的分析」「診断的分析」「予測的分析」「処方的分析」を提唱しました。この4つの分析は段階が進むほど難易度(複雑性)と価値が高くなると説明されています。

この中の診断的分析はなぜそれが起こったか、つまり事象の因果関係を捉える分析ですが、因果関係の考察はときに予測よりも難しい場合があると感じます。

特に、観察データ中心のピープルアナリティクスにおいては、診断的分析の難易度は格段にあがるでしょう。それが難しくも面白いところではあります。

* * *

ここをスタートラインとして過去のプロジェクトや、これまでに読んできた統計解析や機械学習の参考書を読み返すと随分違った風景が見えてきます。

私が今感じているのは、記述的分析の前向きで誠実な使い方を踏まえたうえで、因果推論を学ぶことが必要だということです。幸い、国内でも因果推論の良い本がたくさん出版されているので学ぶ環境は整ってきました。

ということで、冒頭の画像のような本を積み上げつつ学んでいます。


この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?