見出し画像

Column : 因果推論入門の入門 vol. 4

 前回は、因果関係を正しく特定するためには事実と”反事実”を比較する必要があるということ、しかし実際には”反事実”は観察することができないため、反事実におけるデータを尤も(もっとも)らしいデータで穴埋めする必要があることを説明しました。そして、この考え方こそが経済学者が発展させてきた因果推論に通底する重要な概念であるというお話でした。

 今回はランダム化の効用とランダム化比較試験について紹介します。


ーランダム化の効用ー

 前回、小売店において広告を出した店舗と出していない店舗の売上を比較することで広告の因果効果を推定するためには、広告を出した店舗と出していない店舗が比較可能である必要があるというお話をしました。

 しかし、店舗の規模や店長の裁量に任せるなど、何かしらの人為的な方法で広告を出すかどうかを決めた場合には、広告を出すかどうか以外の要因によって売上が変わってしまう可能性を否定できないため、売り上げの変化が広告の効果なのかどうか判断できなくなってしまいます。

※調査したい要因以外の結果に影響を与えうる要因のことを「交絡因子」と呼びます。

 ここで効果を発揮するのがランダム化です。ランダムと言ってもでたらめという意味ではなく、どの個体についても介入群に振り分けられる確率が等しい状態を作るという意味です。

 ランダムに広告を出す店舗を割り振った場合には、結果に影響を与えうるその他の要因(交絡因子)を平均化することができます。そうすると、広告を出す店舗と出さない店舗が比較可能となり、広告を出す店舗の反事実を広告を出さない店舗で穴埋めることができるようになります。

 この方法は一般にランダム化比較試験(RCT)と呼ばれています。

因果推論Fig4.001


ーWebマーケティングへの浸透ー

 現在、Webマーケティングの分野においてこのランダム化比較試験(この文脈ではA/Bテストと呼ばれます)が広く行われています。具体的には、あるサイトを訪れたユーザーを二つのUIにランダムに振り分け、一定期間が経過した後に広告のクリック数の多い方のUIを採用するといったやり方です。

※この方法では、特定のサイトを訪れるユーザーという時点でバイアスがかかっていますが、目的がテストに参加したユーザー(およびそのサイトを訪れる傾向のあるユーザー)に対する最適化であればテストは有効です。これを内的妥当性と言います。ランダム化比較試験は内的妥当性が保証されるという意味で非常に強力な手法です。一方で、ランダム化比較試験でも外的妥当性(結論を一般化可能かどうか)は保証されません。

 A/Bテストは、2000年頃からグーグルやアマゾンなどの巨大テック企業によってビジネスに導入され始め、現在では、非常に多数の細かいA/Bテストが常に実施されているために、同じサイトを訪れた二人のユーザーがまったく同じ経験をすることはないといっても過言ではないほどです。

 これほどまでにA/Bテストが流行った理由としては、ウェブ上ではプロトタイプの作成やユーザーのランダム割り付けを容易に行うことができ、ほとんど理想的な実験を計画・実施できることが挙げられます。また、ネットショッピングを例にとると、ユーザーの購買履歴などが電子化されている、現実の店舗に比べて利用するユーザー数(つまりデータ数)が非常に多いなど、統計解析に有利な条件が揃っています。そして、それら大量のデータを処理できるマシンの登場がこの流行を支えてきたと言えるでしょう。


ースマートなスモールテストをー

 以前に紹介したメタボ健診と長生きの関係については、過去に大規模なランダム化比較試験がデンマークで行われています。このメタボ健診では、30歳〜60歳の成人男女6万人をランダムに割り付け、10年間にわたって追跡しています。結果はメタボ健診と保健指導によって死亡率に有意な差は生じないというものでした。この試験を実施した研究者たちは、「大規模なランダム化比較試験はコストがかかるものの、効果がない健診を全国民に提供することに比べればはるかに安上がりである」と述べています。このように、多少コストがかかっても効果を検証してから全体に導入するほうが良い場合も多いのではないでしょうか。

※この研究結果がそのまま日本に当てはまるわけではありません。

 この考え方は、ビジネスの様々な場面で有効です。デスクで頭を突き合わせて議論をしていても、やったことのないことに関して合理的な結論は出ないかもしれませんが、実験をすればデータに基づいた結論(ないしは改善策)が得られます。顧客に対するキャンペーンにも社内の取り組みにもぜひランダム化したスモールテストを取り入れてみてはいかがでしょうか?

 ここまで4回に亘って、因果推論の基本的な考え方に触れてきました。二つの変数間の関係が相関関係なのか因果関係なのかを明確に意識し、業務や日常においてより良い結果が得られるようにしていきたいものです。


参考

[1]『「原因と結果」の経済学』、中室牧子・津川友介 著、ダイヤモンド社

[2] 『分析者のためのデータ解釈学入門 データの本質をとらえる技術』、江崎貴裕 著、ソシム株式会社

[3] 『統計学が最強の学問である [ビジネス編]』、西内啓 著、ダイヤモンド社] 

[4]『アルゴリズム思考術』、ブライアン・クリスチャン&トム・グリフィス 著、田沢恭子 訳、株式会社早川書房

いいなと思ったら応援しよう!