A/B testの落とし穴①

もし、あなたがある日、あるトレーニングジムで筋トレをしていた人達を、ランダムにA群とB群に割り当てて、A/B testをしたとします。

A群にはプロテインを毎日無料で配り、
B群には何もしなかったとします。

様々なバイアスが入らないように慎重にtestを実施した結果、3ヶ月後に、A群はB群と比較して10%も筋肉量が多くなっていた結果が得られたとします。

プロテインの無料配布には筋肉量を3ヶ月で10%増加させる効果があった。と、言えることが出来そうです。

さて、ここで問題です。仮に、日本に居住する人全員に3ヶ月間無償でプロテインを配布したとします。同じように日本の居住者全員の筋肉量が10%アップするでしょうか?

答えはおそらくNoです。

ジムに居た人達は、平均的な日本の居住者より筋トレをする頻度や強度が高い可能性があるので、ジムと同じ結果を日本の居住者全員に当てはめることは出来ません。

これと同じことがA/B testでも起こり得ます。
A/Bの比較がいくら適切でも、そもそも性質を調べたかった集団とA/B testの対象になった集団に差があってはダメという事です。

この事は、実務上ではA/B testの対象となるユーザーを選択するロジック(実装)と関わってきます。

例えば、MAUの性質について調べたいのに、A/B testの対象者が特定の画面を見た場合に決まるような実装だと上記のような問題が起き得ます。

通常のソフトウエアテストではチェックしない観点だと思いますが、大切なポイントなのでしっかりチェックしましょう。

いいなと思ったら応援しよう!