見出し画像

書評「データ分析の力 因果関係に迫る思考法」

どーも、消費財メーカーでデータサイエンティストをやっているウマたん(https://twitter.com/statistics1012)です。

個人活動として、スタビジというサイトYoutubeチャンネルでデータサイエンスやビジネスについての発信をしています。

データ分析をビジネスに活かす上で注意しておかないといけないのが因果関係!

そんな因果関係を簡単に解説した書籍がこの「データ分析の力 因果関係に迫る思考法」なんです。

因果関係を理論的に考えていく分野を統計学では、統計的因果推論と言いますが、そんな因果推論の世界を実例とともに平易にわかりやすく解説している本です。

因果の奥深さとビジネスへの活用を理解するのに非常に有用な書籍になっています。

この記事では、そんな「データ分析の力 因果関係に迫る思考法」について3つのパートに分けて解説していきます。

・因果関係とは何なのか?なぜ因果関係は見つけるのが難しいのか?
・因果関係を証明する方法
・因果関係を証明する上での注意点

Youtubeでも分かりやすく解説しています!

因果関係とは何なのか?なぜ因果関係は見つけるのが難しいのか?

まずは、因果関係とは何なのか、
そして因果関係を見つけるのはなぜ難しいのか見ていきます!

この書籍で取り上げられている、あるアイスクリーム会社の例で見ていきましょう!

あるアイスクリーム会社では2010年に広告を打ち売上が2009年よりも上がりました。果たして広告の効果はあったのでしょうか?

ある事象が原因で、ある事象が引き起こされた場合、そこには因果関係があると言います。

この例だと広告の効果が原因で売上が上がったかどうか、因果を見たいということになりますね。

さてこの例では、一見因果があるように思えますが、実は様々な罠が潜んでいるのです。

1つ目が他の要因があるかもしれないということ。

もしかしたら2009年と比較して2010年は猛暑だったためアイスクリームの売上が伸びたのかもしれません。

他の要因を考え始めたらキリがなく厳密にこのようなデータから因果関係を見極めるのは難しいことがわかると思います。

2つ目が逆の因果が働いているかもしれないということ。

もしかしたら、この会社は売上が好調だったため、売上を使って広告を打つというアクションを取り始めたのかもしれません。

その場合、売上が上がったから広告を打ったという逆の因果関係が働いていることがわかると思います。

多くのデータがトラッキングかつ計算できるようになりビッグデータという言葉がバズワードとなって久しいですが、そんな時代でも因果関係を証明するのは非常に難しいです。

相関関係に関しては多くのデータを取得できるようになったことで簡単に見れるようになりましたが、因果関係はそうとは言えません。

ビジネスの世界では、相関関係がある=因果関係がある、というように解釈されてしまいがちなところも多いので必ず注意しましょう!

ただ相関関係=因果関係とは言えないということしっかり認識しておいて欲しいのですが、相関関係だけに注目してビジネスアクションを取ることは多いです!

因果関係を証明する方法

さて、そんな因果関係はどのように証明することができるのでしょうか?
因果関係を証明する方法はいくつかあります。

最も有名でかつ有用な手法が、ランダム化比較実験(RCT)です。

ビジネスシーンでよく行われているABテストもRCTの一種です。

簡単に言うと、ある事象を介入させたグループと介入させないグループを作り、そのグループ同士を比較するというもの。

この時注意しないといけないのは、2つのグループを完全にランダムに分けないといけないということ。

ランダムに分けないと適切に因果関係を見ることができません。

例えば、先程の広告の例だと、地域によって広告を出す地域と出さない地域を分けるみたいなグループ分けはランダムではないので正確に因果関係を推定することができません。

なぜなら、地域差という要因がグループ差に生じてしまっているからですね。

RCTは強力な手法で設計をしっかりすれば、因果関係を証明することが可能です。

ただRCTは、実際に実験を行う準備をしなくてはいけません。

そのため費用や時間がかかります。

そこで使われるのが自然発生したデータを使って検証する方法

そんな方法はいくつかありますが、ここではRDデザインという手法だけ取り上げておきましょう

RDデザインとは世の中に元々存在する境界線をうまく使い因果関係に迫る自然実験手法です。

この本で紹介されている例だと、例えば「医療費の負担額を下げると医療サービス利用者数は増えるか」実は、日本では70歳の誕生日を堺に医療費自己負担が3割から1割に下がります。

その前後で非連続的に医療サービス利用者が増えているかどうかを見てみることで因果関係の有無を見極めることができるのです。

69歳と70歳の間にサービス利用者数に大きな増加があれば、それは因果関係があることがわかるでしょう!

実際にこのケースでは、70歳を堺に非連続的にサービス利用者が増えており因果関係がありそうということがわかりました。

ただRCTと違い、負担額が変わらない場合の事象は正確には観測できないので、手法としての強力さではRCTに軍配が上がります。

コストや工数の問題でRCTが実施できない場合は、自然実験手法を用いてみるとよいでしょう!

本の中では、集積分析・パネルデータ分析など他の手法についても紹介されていますので是非よんでみてください!

因果関係を証明する上での注意点

最後に因果関係を見極める上での注意点について見ていきます!
データ自体の問題
外的妥当性
出版バイアス
介入の波及効果

データ自体の問題

これは、因果関係問わず、全てのデータ分析に言えることですが、そもそものデータに不備がないか確認する必要があります。

データに欠損が多かったり、偏ったデータになっていたりすると正しく因果関係を推定することができません

外的妥当性

続いて外的妥当性という問題があります。

例えばRCTを行う上である地域を対象に行った場合、その結果はその地域限定のもので、他の地域には適用させることができません。

これが外的妥当性です。

出版バイアス

また出版バイアスという問題も存在します。

あるデータから仮説を持って調べた結果、因果関係はなかったというのも立派な成果なのですが、因果関係を証明したいという思いから、実験者自体が恣意的な調査をしてしまう可能性もあります。

研究では、たしかに未だに因果関係があったという証明をしないと世の中に出す意味がないという雰囲気はあり、それにより因果関係を示しやすいような状況を恣意的に作り出してしまうことがあるのです。

介入の波及効果

最後に介入の波及効果という罠があります。

例えばRCTを行い、ランダムにグループ分けをおこなったとしても、片方のグループが片方のグループの一部に影響を与えてしまうかもしれないという現象です。

例えば、PCを与えることによる学生の成績への因果関係を見たい時にあるクラス生徒をランダムに振り分けた場合、PCを支給された生徒が支給されていない生徒にも使わせてあげてしまうことが考えられます。

このように介入グループが比較グループに影響を及ぼすことを介入の波及効果と呼ぶのです。

ここまでで、「データ分析のちから 因果関係に迫る思考法」について解説していきました!

因果関係はビジネスにおいて非常に重要です。

ただもちろん厳密に因果関係を証明するのは難しいので、相関関係だけでビジネスに落とし込むことも多いです。

因果関係を使いこなしてビジネスに価値を生み出していきましょう!

それでは、本日の覚えて帰って欲しいキーワード!!

いってみましょう!
・相関関係があっても因果関係があるとは言えず、因果関係を証明するのは難しい
・因果関係を証明するには、ランダム化比較実験や自然に生じたデータの構造を使う自然実験手法がある
・因果関係を証明する上ではデータ欠損、外的妥当性、出版バイアス、介入の波及効果などに注意しよう!

以上、データサイエンティストのウマたん(https://twitter.com/statistics1012)でした!

スタビジというサイトYoutubeチャンネルでデータサイエンスについての発信をしていますので、こちらもよろしくお願いします!

それではまた今度!
Let's statistics×bussiness「スタビジ」!

この記事が気に入ったらサポートをしてみませんか?