マーケティングに因果推論を

マーケティングリサーチの企画書や報告書に使う用語を再考するシリーズ第7弾は「差」、「差分」と気取って言うこともある。
「偏差」まで考えると統計学の初歩知識が必要だが、小学生程度の引き算ができれば差の分析はできる。
<ビッグデータとスモールデータ>
2010年代に入って隆盛を極めたビッグデータ分析は「非構造化データが、極めて大量に、フィールドワーク(調査)なしで収集されたもの」と自らのデータを定義している。言い換えれば「きたないデータが、スパコン使うほど大量に、無料で」集まってくるである。
我々マーケティングリサーチが扱うデータはスモールデータである。
ビッグデータとの比較でスモールデータを定義すると「構造化(質問文・回答選択肢)されたデータをフィールドワークで収集する。費用合理化のため回収サンプルをできる限り(一定の精度を保証して)少なくした」データとなる。
<ビッグデータは予測をめざし、スモールデータは現状分析が目的>
ビッグデータ分析はまず、データをきれいにする必要があり、これに費用(労力)がかかる。きれいになったデータでモデルを作って何回も学習させることには頭脳(労力)とコンピュータパワーが使われる。この2つが投資で、有効なモデル開発ができれば分析に使い、AIと称して外販でリターンを得る。
モデル作りとその精緻化がデータサイエンティストの腕の見せ所だが、データ変動すべてを説明できることはなく、説明しきれないデータ変動が残る。
これを残差といい、ゼロに近づけようとモデルを調整し過ぎるとオーバーフィッティング(過学習というらしい)をおこしてモデルが使い物にならなくなるとのことである。
一方、スモールデータは主要な指標(認知率・購入量など)を計測し、その指標のセグメントごとの差分を分析する。A製品の購入率は13%で、男性11%、女性14%と性別で差がある。この差の原因として。。。。と続く。
マーケティングリサーチの分析とはクロス表の「差」の発見と差の原因、理由の解釈のことと言える。
<差の分析から差の差の分析(因果分析へ>
リサーチデータは1回限りのことが多い(クロスセクションデータ)。
パネル調査とまでは行かなくても、同じやり方で構造化されたデータが一定の間隔(半年、1年)で取得できれば「差の差」の分析ができる。
例えば、A製品の女性限定キャンペーンの効果測定をしたいというテーマで直近の調査結果と半年前(キャンペーン前)の結果を比較したとする。
A製品の購入金額が251円→256円と5円(差)増加した。男性は248円→247円、女性は255円→262円という結果が得られた。
男性の前期差は-1円、女性は+7円である。男女差は前期7円から15円で差が8円広がっている。
これが差の差の分析で、この女性現限定キャンペーンは売上8円増(全体では5円増)の効果があった、キャンペーンと購入金額(売上)に因果関係があったと推定できる。
<差の差の分析から因果推論へ>
前の分析を検討すると、これだけでは因果関係とは言えない、単なる相関か関係ではないか?購入金額の増減にはキャンペーン以外にも多くの強力な要因があるのでは?などの批判が当然出てくる。
本来はキャンペーン前にランダムサンプリングで2グループを作り、キャンペーン告知(処置)と非告知(統制)として、本年度の調査を実施して差の差の分析をする必要がある。
これをランダム化比較テスト(RCT)といい、医薬品では処置か統制(偽薬)かを患者・医師にも知らせない二重盲検法が採用される。
マーケティングではABテストがRCTと言えるが、ランダム化を厳密に考えていないABテストもあるようである。
マーケティング(リサーチ)では、因果効果まで要求しない、相関関係で十分との場合も多く、市場実験は利益よりリスクが大きいと考える傾向がある。
例えば、例にあげた女性限定キャンペーンも男性を外した事による損失予測ができていない。実験で統制群に割り振られた消費者の機会損失はどうするなどの問題を行旅しないといけない。
とはいえ、生成過程としての因果効果の解釈や反実仮想の概念などを発展、実施してマーケティングに因果推論を持ち込むべきであろう。

いいなと思ったら応援しよう!