「A/Bテスト実践ガイド」を読んだのでメモ
ABテストの原則
コントロール実験をする組織の3つの重要な原則が以下述べられていました。
▶組織は、データに基づいた意思決定を行いたいと考えており、かつOECを定式化している
▶組織はコントロール実験をし、その結果が信用できるものであることを保証するため、投資する意思がある
▶組織はアイデアの価値を評価することが苦手であることを認識している
という3つです。統計的な手法よりも、組織がどのようにデータと向き合おうとしているのかが重要だということだと理解しました。深いですね。
以前アイデミーの「DX推進講座」でも同じようなことを言っていた記憶があります。組織がデータ活用やITをどのように捉えているのかが重要であり、そのためにはデータ活用・ITに関連するCXOを設けトップダウンで進めていく必要があるという話だったような気がします。
よりよいOEC
OECはOverall Evaluation Criterionの略であり、ABテストで計測すべき指標のことです。
打ち手を実施して「収益」が上がるか見たほうがいいのでは?とも思いますが、話はそう単純ではないようです。例えばamazonでは、メルマガ評価のために、クリックスルー収益を見ていたそうです。クリックスルー収益をOECとした場合、メルマガを配信したほうがもちろんクリックスルー収益が上がります。しかし短期的なクリックスルー収益を追いかけた場合、しつこいメルマガによるユーザー離反などを考慮できません。
そのためamazonでは特定の人に一生メールを送ることができない場合の推定収益損失やメルマガ配信停止数をOECの定式に組み込み、OECを定義したそうです。
このように短期的な収益のみ追いかけると、LTVを最大化できない可能性があるので、OECの適切な定式化は非常に重要かつセンスが光るところな気がします。
※BingやamazonのOECの式については、本書に記載があるので、購入してみてください。
実験デザイン
実験デザインは極論以下項目の結論の詰め合わせとのこと
1.ランダム化単位はなにか?
2.ターゲットにしたいランダム化単位の母集団はなにか?
3.実験に必要な標本の大きさはどのくらいか?
4.どのくらいの期間実験を実施するのか?
無効な実験にしない(または見逃さない)
実験していく中で、実験そのものが無効に終わってしまうこともあります。それら無効な実験かどうかを判断するための指標として、ガードレールメトリクスがあります。ガードレールメトリクスにはSRMなどがあります。
またA/Aテストで、ツールが正常に稼働しているかをチェックすることも大事です。本来ほとんど結果に差が生まれないはずなのに、差が生まれてしまったら問題ですよね。
その他
それ以外ではインスティチューションメモリといった、実験結果をまとめたものが大事だとも言ってました。インスティチューションメモリによって
▶未来のイノベーション(過去何がうまくいったのか、またはうまくいかなかったかを蓄積し、より良い実験を行う)
▶ベイズ的アプローチのための確率的な定理(過去実験から事前分布の構築に役立てる)
等のメリットを教授出来ます。(すばらしい!)
あとSQRフレームワークも興味深かったです。スピード・品質・リスクのバランスが大事だよということでした。
例えば最高の統計的検出力を提供する実験割当(Maximum Power Ramp:MPR)での実験を実施したらいいかも?と思っても、新機能にはバグ発生などのリスクがあり、結果ユーザー離反を招くかもしれないですよね?リスクを考え、まずはMPR前で実施してみて、その後MPRでやろうよという感じの話です。
SQRフレームワークはA/Bテスト以外でも利用できそうなフレームワークでいいですね。
メモは以上