より良い意思決定の支援をするための"効果検証 虎の巻"
今回は、メルカリのAnalyticsチームの中でも主にビジネス分析やマーケティング分析を行うGrowth Analytics Teamからの記事です。
Analyticsチームは、以下のミッションを通じて事業に貢献するチームです。
Provide actionable insights and help people make better decisions(実行可能なインサイトを提供し、より良い意思決定の支援を行う)
Democratize data and empower everyone with analytics(データの民主化を推し進め、皆の分析力を高めていく)
そんなAnalyticsチームで、"効果検証 虎の巻"なるものを導入しました。主な狙いは以下の2点です。
Analyticsチーム内の暗黙知を集約して言語化・浸透させることによる、メンバーのアウトプットの質の向上
誰がやっても同じようなアウトプットになることに時間を掛けるよりも、課題深掘りや施策立案などに労力を割いて総和としての事業貢献量の最大化
余談ですが、誰がやっても同じようなアウトプットになる領域(標準的なA/Bテストなど)というのは、将来的に自動化されたりAIに代替されていくでしょうから、データアナリストとしてのキャリアを考える上でも、より創造性を伴う分析領域にフォーカスするのが良いのではないかとも思っています。今回の本題ではないですが、メルカリはプロダクトのA/Bテストの自動化も進んでおり、アナリストはよりテスト結果の事後分析などに時間を割けるようになっています。
▼参考:
前提として、メルカリの事業判断やプロダクトの仕様変更にあたっては、公式の意思決定基準として有意水準の規定があったり、実験データでない観察データに基づくような因果推論を元にした結果は推奨されないなど、比較的シビアな分析結果が求められることがあります。一方で、現場で行う個別キャンペーン施策では円滑な意思決定ができるように様々な分析アプローチを駆使して効果検証を実施しています。
そこで"効果検証 虎の巻"の初弾は、A/Bテスト(ランダム化比較実験)が難しいような効果検証にフォーカスをして作成しました。分析の現場ではA/Bテストのように同質の比較群を用意できないような困難な分析課題に直面することがあります。そのようなケースに対して、虎の巻に記載しているアプローチを一部紹介します。
ケース別のアプローチ全体像
効果検証方法の選定は、おおまかに下記のようなフローチャートに沿って行えると考えました。
[実験] ランダム化比較実験が可能: A/Bテスト
[準実験] 同質とみなせるユーザー間での比較が可能: DID/CausalImpact
[観察] 同質とみなせるユーザー間での比較が不可能
影響を受けていない層との比較が可能 (影響群と非影響群がいる): 交絡調整
影響を受けていない層との比較が不可 (全員が影響を受けている): トレンド比較
次の章で上記の各評価方法の例を順に紹介していきます。(A/Bテストに関しては下記リンクの通り、過去ブログでも複数回紹介していますので今回は割愛します)
どのように対処して意思決定に貢献しているか
この章では、上記フローチャートの中のDID/CausalImpact・交絡調整・トレンド比較という3つの手法の詳細を下記のフレームで説明していきます。
Situation:例えばどのような状況下にあるときに用いるのか
Typical approach:アプローチの概要
Barrier:そのアプローチを取る際の障壁や難しい点
Solution:上記のBarrierを解決するための方法
1. DID/CausalImpact
Situation
TVCMによるKPILiftを算出したい
ユーザをランダムに分割することができないので純粋なA/Bテストによる評価ができない
Typical approach
一部のエリアのみTVCM放映を行うエリアA/BテストによるCausalImpactを用いたTVCMの効果測定
※季節性やトレンドの考慮ができる点とLiftの信頼区間を出せるという点から、DIDではなくCausalImpactを用いた
Barrier
ほぼ同質とみなせるTVCM放映エリア/非放映エリアの選定方法
測定したいKPILiftをできるだけ精緻に測定できるtreatmentエリア/controlエリアの組み合わせを探すことが必要
Solution
A/Aテストを実施してtreatmentエリア/controlエリアの選定を行う
昨年同時期や直近のKPI実績データを用いて、CausalImpactによるA/Aテストを実施し、Liftがプラスにもマイナスにも出ないかを確認する
p値が大きいかだけでなく、RMSEやrelative effect絶対値ができるだけ小さいエリアを選定することにより、正確なLiftを検知することができる
2. 交絡調整 (傾向スコアマッチング/IPW)
Situation
お客様が新機能を使うことによる事業影響を評価したいが、その機能を利用するかどうかはお客様の意向に依存していて、利用者と非利用者とで単純な比較を行うことができない (交絡がある)
Typical approach
観察データに基づく傾向スコアマッチングまたはIPW(Inverse Probability Weighting)による因果推論
Barrier
あくまでも正解が分からない状況下での統計的な補正であり、交絡をどの程度補正出来ていて出力した結果はどの程度確らしさがあるのかを関係者間で合意して意思決定を行うことが難しい
Solution
結果の確らしさを統計量だけでなく再現性で示し、関係者が一定の確らしさを確認できる状態にすることで意思決定の精度を高める
統計量による確認の例
マッチング後の標準化平均差が基準値以下
モデリング時のAUCが基準値以上
再現性による確認の例
機能の利用度をHeavy/Middle/Lightのように量層で区分を作った場合に結果変数も順番通りに再現されるか (順序のある多重処置)
時系列で安定して再現性があるか
類似の施策で類似の結果が再現されるか
3. トレンド比較
Situation
コロナウイルスの流行によりライフスタイルが変化した。それによるメルカリへの事業影響を評価したい
Typical approach
流行前中後のKPIの時系列変化を観測して影響評価を行う
Barrier
時系列の変化のみで全体評価を行うと、その変化がコロナウイルスの流行による影響なのか、それ以外の事象による影響なのかを切り分けることが難しい
Solution
対象となる事象が、どのように事業に影響を与えるかをモデル化
コロナウイルスの流行度の変化→外出自粛/増加→在宅での余暇時間の増加/減少→オンラインショッピングの利用機会増/減
プロセス毎の指標化と、どの指標間で、どのようなタイミングで相関が起きているかを把握
感染者数→人流→アクセス数・取引数のトレンドをそれぞれ把握
一連の流れをタイムラグを考慮して比較することで、各指標の相関がより明確にできるのでは
結果として、感染者数が前月比で増減→その1ヶ月後にメルカリの特定のKPIトレンドが連動して増減していそうである
実際に相関係数を調査し、これらの変動に相関性があることを確認
社内外からデータを収集し、各指標を集計。その後相関の分析を行うことで、単純な時系列変化と比べて正確性を増すことができると想定
まとめ
今回、A/Bテスト(ランダム化比較実験)が難しいような効果検証にフォーカスをした”虎の巻”の内容の一部を紹介させていただきました。冒頭にも記載しましたが、これを見れば様々な効果検証の仕方が誰でも理解できるという虎の巻を目指しております。Analyticsチームが分析面からさらにメルカリの事業にスピーディーに貢献できるような虎の巻になるよう今後も新たな知見が得られた場合は都度追記していき、ブラッシュアップを図っていきたいと考えています。
▼採用情報サイトはこちらから
この記事が気に入ったらサポートをしてみませんか?