行動データを活用した効果測定の最適解、「差分の差分法」 とは?【因果推論④】
正しく効果を測定するための方法論として、注目を集める「因果推論」。本連載では、マクロミルのデータサイエンスチームが、その考え方とマーケティングへの応用を解説します。前回は、同質化させたい属性や要因が、個票データとして入手できる場合に活用できる「傾向スコア」分析について紹介しました。
今回は、同質化させたい属性や要因が個票データとして入手できない場合のアプローチ、「施策の前後で比較する手法」を解説し、応用例としてテレビCMの効果測定を紹介します。
1.アンケート調査に頼らずに広告効果を測るには
今回も、バイアスによって正しく効果測定ができないケースを考えます。
例えば、メーカーが優良顧客の育成を目的として、自社ECサイト上で割引クーポンを取得できるキャンペーンを実施しました。このキャンペーンが購入金額に与える効果の測定を行うとき、クーポンを取得した顧客(処置群)と取得しなかった顧客(対照群)で、キャンペーン期間中の購入金額を単純に比較するだけでは、正しい測定ができない可能性があります。なぜなら、クーポンを取得するアクションを行った顧客は、そもそもそのメーカーの愛着といったロイヤリティや購買意欲が高い可能性があるためです。したがって、クーポンが無かったとしても、未取得の顧客と比べて購入金額が高いと考えられます。すなわち、「ロイヤリティ」が結果に影響を与え、「交絡因子」となっているために、バイアスが生じる可能性があるということです。
前回は、交絡因子と考えられる属性や要因が個票データとして入手できていれば、マッチングや重み付け分析により、バイアスを除去した効果測定が可能であると説明しました。しかしながら、今回のようなケースでは「ロイヤリティ」を直接的に個票データとして得ることは難しいと考えられます。顧客の「ロイヤリティ」を測るには、アンケートで尋ねる必要がありますが、顧客向けにアンケート調査を行ったとしても、分析対象としたい全ての顧客からは回答データを得られないと考えられるためです。
こうしたケースでも、それぞれの顧客のキャンペーン期間中(施策実施後)と、期間前(施策実施前)の購入金額のデータさえあれば、「ロイヤリティ」などの属性や要因の違いを除去した、正しい効果を測定できる可能性があります。つまり、アンケートの実施が難しく、行動データのみしか取得できない場合でも、施策実施前(プレ)と施策実施後(ポスト)の結果を持つ「プレ・ポスデータ」があれば、正しい効果測定が実現できる可能性があります。
2.2群の前後差を比較する「差分の差分法」
「プレ・ポスデータ」を使った効果測定の方法論として、最も用いられるものは「差分の差分法」(Difference in Differences; DID)と呼ばれるものです。
差分の差分法の計算方法は非常にシンプルです。まず処置群の「ポスト」(施策実施後)と「プレ」(施策実施前)の結果の平均値の差を取ります(=差分①)。次に、対照群についても「ポスト」と「プレ」の結果の平均値の差を取ります(=差分②)。最終的に差分①と差分②の差をとることで、施策の効果を測ります。2つの差分の差分を取ることから、「差分の差分法」と呼ばれています(図1)。
先ほどの例であれば、まず、クーポンを取得した顧客のキャンペーン期間中と期間前の平均購入金額の差分を計算します。さらに、未取得の顧客も同様に、期間中と期間前の平均購入金額の差分を計算します。そして、最後にクーポンを取得した顧客での差分と、未取得の顧客での差分の差分を取ることで、クーポンの効果を測ります。
3.「差分の差分法」は2種類のバイアスに対処する
なぜ、この計算方法で正しい効果が特定できるのでしょうか。これを理解するには、第1回で紹介したドナルド・ルービンによる「真の効果」のフレームワークが役立ちます。このフレームワークでは、同じ個人について、「クーポンありの場合」と「なしの場合」の2つの世界を想像しています。その上で、2つの世界における購入金額の差が、クーポンの「真の効果」と定義される、ということでした。
しかし、現実世界では同じ個人に関して、どちらか一方の世界の結果しか観察できないことが、効果測定の根本的な問題です。すなわち、クーポンを取得した顧客について、「クーポンありの場合」の購入金額のデータは得られても、「クーポンなしの場合」の購入金額は分からないため、効果が特定できないということです。
プレ・ポスデータを用いた効果測定は、本来は入手できないはずの「クーポンなしの場合」の購入金額を、「プレ」(施策実施前)の購入金額で置き換えるという考え方に立脚しています。つまり、クーポンを取得した顧客であっても、キャンペーン期間前にはクーポンを持っていないため、その時点の結果を「もう1つの世界での結果」とみなしています。プレもポストも、同じ個人・集団によるデータのため、「ロイヤリティ」などの属性や要因に違いがなく、それらに起因するバイアスを回避できます。
ただ、この考え方だけでは不十分な点があります。「処置群での施策前後の差分」をとるだけでは、まだ他のバイアスが残っている可能性があるためです。この除去しきれていないバイアスは、外部環境の違いなどに起因する、プレとポストの時期・季節の違いによるバイアスです。
販促キャンペーンは、対象商材への需要が高い時期に実施されることがあります。その場合、「キャンペーン期間前」の購入金額をキャンペーン期間中の「クーポンなしの場合」の購入金額としてみなすことはできません。なぜなら、キャンペーンの時期は、同時に顧客の購買意欲が高い時期でもあるので、クーポンが無かったとしても、キャンペーン期間前より購入金額が多くなる可能性があるためです。つまり、「処置群での施策前後の差分」は、施策の効果に加えて、季節による影響を足したものになっているといえます。
差分の差分法では、この季節によって生じるバイアスを、「対照群での施策前後の差分」を使って特定しています。クーポン未取得の顧客には、施策の影響がないため、キャンペーン期間中と期間前の差分を取ることで「季節の違いによる影響」のみを取り出すことができます。そして、その値を「処置群での施策前後の差分」から差し引くことで、季節に起因するバイアスを除去し、純粋な施策の効果を特定します。
4.属性変化と季節影響に注意する
この方法をまとめると、処置群の施策前後の差分を取ることで属性や要因の違いによるバイアスを回避し、さらにその差分と対照群の施策前後の差分の差分を取ることで、季節の違いによるバイアスをも除去しているといえます。
しかし、差分の差分法の利用には注意も必要です。差分の差分法は、①処置群・対照群がそれぞれ、施策前後で同質であること、②季節による影響が処置群と対照群で変わらないことを前提にしています。
例えば、「ロイヤリティ」のような交絡因子が、施策とは無関係に時間と共に大きく変化する場合、前提①が満たされません。このとき、正確に効果を測定するためには、何らかの方法でキャンペーン期間中の「ロイヤリティ」をデータとして取得しなければなりません。ただし、処置群と対照群で属性が同程度に変化する場合には「季節による影響」と同様、差分の差分を取るとその影響が消えるために問題にはなりません。
前提②は、季節に起因する需要の変化が、処置群と対照群で異なるときに満たされません。例えば、菓子メーカーがバレンタインの季節に、女性のみにクーポンを配布するケースを考えてみましょう。この時期、女性は特に施策実施前よりも購買意欲が高くなる一方で、男性は購買意欲が変わらないと考えられます。このとき、季節による影響が、クーポンを取得した女性顧客と、男性を含むクーポン未取得の顧客では異なり、後者の前後差をとってもクーポンを取得した女性顧客への「季節による影響」を特定できません。この場合には、処置群と「季節による影響」が同じであると考えられる集団、つまり、クーポンを取得しなかった女性のみを対照群にする、といった分析上の工夫が必要です。
5.「差分の差分法」でテレビCMの効果を測る
マーケティング施策の効果測定において「差分の差分法」が活用できるシーンは、広告が売上に与える効果を測る「セールスリフト」の分析です。とりわけ、テレビCMが売上に与える効果の測定には相性が良いといえます。
一般的に、テレビCMの放映地域と非放映地域で、売上金額を比較することで、テレビCMの効果を測定することが多いと考えられますが、この単純比較による効果測定には問題があります。テレビCMはその商材への購買ポテンシャルが高い地域に出稿されている可能性が高く、その場合、単純に放映地域と非放映地域の売上金額の差は、広告による差のみならず、購買ポテンシャルの差を含んでいる可能性が高いためです。
また、前回紹介した傾向スコアによる分析の実施も難しいといえます。テレビという機器の特性上、個人レベルでCM接触情報と購買履歴を正確に取得するハードルが高く、エリア単位の売上データで効果測定を行うことが求められるためです。エリア単位のデータは、個人単位に比べデータの数が圧倒的に少なく、傾向スコアを算出することができません。
その一方で、エリア単位の売上データは、POS(Point of Sale)データをはじめとして、時系列でその変化を追えるものが多く、テレビCM放映地域・非放映地域のどちらも、広告出稿前後の売上金額の比較が可能なため、差分の差分法が適用できます。差分の差分法は集団単位の平均値の引き算を繰り返すだけの単純な手法でもあるため、エリア単位のデータしか利用できないという懸念点も分析の障壁にはなりません。
この差分の差分法を用いたテレビCM効果測定の特筆すべき点は、エリア単位の売上データだけで、他の広告の効果を取り除いた「テレビのみ」の効果を特定できる可能性があるという点です。仮に同時期にWEB広告を出稿していても、そのWEB広告がテレビCMの放映地域・非放映地域どちらにも出稿されていれば、「差分の差分」を取ることで、その影響は消去されます。つまり、WEB広告が売上金額に与える効果は「季節による影響」の一種とみなされ、測定結果には含まれない、ということです。
このように差分の差分法では、集計値データのみでもテレビCM単体の売上への効果を特定できるほか、特定のWEBメディアの利用有無で比較対象を設定すれば、WEB広告単体の効果も特定できます。メディアごとの広告効果を正しく特定することは、その後のコミュニケーション・チャネルの検討において、大きな示唆を与えるのではないでしょうか。
今回は、プレ・ポスデータを用いた差分の差分法による効果測定法と、テレビCMの効果の測定への活用を紹介してきました。改めて、今回の内容を整理します。
正しく効果を測定するため、「因果推論」を紹介してきた本連載もいよいよ次回で最終回です。最終回では、これまで紹介した手法を用いた効果測定の事例を紹介します。