グロースとは学びを得ること - 後編
こんにちは、THE GUILDの@goandoです。
「グロースとは学びを得ること - 前編」の続きです。
後編ではグロースにおけるABテストの価値について、グロースに取り組む中で得た気付きと世界の動向をご紹介します。
正しいABテスト
多くの方がご存知のABテストですが、時折見かけるのが「改善案Aと改善案Bの方法のどちらがより良い結果に繋がるかを検証」するための方法として利用し、更には全てのユーザーをランダムに50% vs 50%にスプリットして行っているケースです。
これは正しいABテストの利用方法ではなく、本来は「現在の仕様A(対照群)に対し別の仕様B(介入群)の結果を比較」する実験方法で、仕様Bのみを特定の条件でランダムに抽出した一部の対象に対してのみ行い、元の状態との比較を行うのが本来の活用方法です。
ABテストは統計学や疫学の歴史の中で成り立ったランダム化比較試験の方法に基いており、統計的有意差が得られる数の集団に対して行う事で、全体への影響を必要最低限に抑え、実験の結果を検証する事が目的です。
因果と相関
因果と相関という言葉を良く聞くと思いますが、ABテストを語る上で一度これらの違いについて整理します。
因果関係
「2つの事柄のうち、どちらかが原因で、どちらかが結果である」状態を因果関係があると言います。この時、原因と結果が逆転する事はありません。
例えば「大きな火事現場ほど消防士が多くいる」というのはれっきとした因果関係ですが、これが逆転して「消防士が多くなると火事が大きくなる」という事は有り得ません。
相関関係
「2つの事柄に関係があるものの、その2つは原因と結果の関係にないもの」を相関関係があると言います。世の中には因果があるとしか思えないほど相関が強い偶然の一致が数多くあり、例えば以下の様な因果関係があるようにしか見えない事象さえ存在します。
現実的にニコラス・ケイジの出演映画が増えてもプール事故が増えるはずはありませんし、また逆も無いはずです。こういった相関を擬似相関と言います。
(ちなみにこのツイートのコメントは正しくは「世の中には因果関係があるとしか〜」です。間違ってました...)
私達がサービスのグロースに日々取り組む時、最終的に値を変化させたいKPIに対して相関のある変数を探し、因果関係の存在を明らかにしていきます。その際に最も効果的な検証の方法がABテストなのです。
前後比較では因果関係を証明できない
アプリをアップデートしたらこんなにアクティブ率が上がった!という経験をされた方は多いと思います。
ですが、本当にそれはアップデートが起因した変化でしょうか?
ユーザーが行動に影響を与える条件はあまりに多く、例えば季節によるトレンド、休日、天気、など数え上げればキリがないほど多くの要因があります。
例えばU-NEXTでは2016年のある時期には以下の様にMAUが推移しました。
2017年の同時期のMAUの推移を重ね合わせると、このようにかなり変化が類似しています。それだけユーザーの行動が季節的な要因から受ける影響が大きい事が判ります。
U-NEXTの場合、動画配信サービスという事もあり供給する映画やドラマ等のコンテンツがユーザーの行動に相当に影響します。アップデート後に劇的に多くの数値が改善した事で大喜びをしていたら超大型タイトル「君の名は。」の配信と重なっただけ、でヌカ喜びだった等という事が何度もあります。
因果関係を証明するには、原因が起きた「事実」による結果と、原因が起きなかった「反事実」による結果を比較しなければなりません。
施策の本当の効果を測定したければ、その施策以外のパラメーターを全て同等にする必要があり、それは施策実施前と実施後の前後比較では絶対に比較が出来ません。(厳密には方法はありますが、コスト・手間的に現実的ではありません)
これを正しく行いたければ、同じ期間に正しくサンプリングされた対象のユーザーに対して実験を行い、A.従来の仕様.に対してB.新たな方法.の差を同時に比較するしか無いのです。
ABテストの本当の価値は学びを得る事
U-NEXTでもこの事を徹底せずに数多くの施策をそのまま実施してきた時期が過去にあり、今振り返ると本当にその施策は正しかったのか、どれくらいの変化を生み出していたのか、または改善しているように見えて、効果がなかった施策もあったかもしれません。
ABテストの価値は改善する事ではありません。結果が成功だったのか失敗だったのかに関わらず、仮説がどのような結果をもたらしたのかを定量的に分析し、実験を繰り返す事で学びを得る事で予想と結果の乖離を埋めていく事だと考えています。
グロースする施策を見つける事は本当に困難です。10個のアイディアで1つでも当たればラッキーかもしれません。しかし予想に反した結果になった9個のアイディアから学びを得る事で、その後の仮説検証の精度は必ず改善していくはずです。
U-NEXTにおけるグロースの指針
ABテストのメリットを活かし、U-NEXTでは以下に挙げる目標でグロースに取り組んでいます。
1. 全ユーザーにリリースする前に、局所的に効果の測定を行う
U-NEXTのユーザー規模では、概ね1%程度のユーザーを対象に実験をすれば統計的有意差を確認する事が出来ます。施策が与える影響をごく一部に抑え、改善の検証を行います。
2. 技術的負債を軽減する
1の通り局所的に検証が出来る為、仮にその施策に効果が無いと確認された場合、その施策を取り止める事が出来ます。もし全てのユーザーにリリースした場合、一度提供した機能を取り下げる事は難しく、こうした積み重ねによって多くの技術的負債を抱え続ける事に繋がります。
3. 議論に費やす時間を減らす
全てのユーザーにリリースするよりも影響を限定的に抑える事が出来るので、比較的容易に意思決定する事が出来ます。やるべきかやらざるべきかの議論に長い時間を費やす事を避ける事が出来、また議論するよりもリスクを最小化した上で「まずやってみよう」という姿勢に変わって行きます。
4. グロースのプロセス自体を改善し続ける
グロースを目指す活動において、プロセスを確立しサイクル自体を改善し続ける事が最も重要だと考えています。試行錯誤の反復を繰り返す中で、テクノロジーで置き換えられる部分は効率化し、置き換えが出来ない部分はマニュアル化を行う等、常にプロセスを改善していきます。
またU-NEXTはスマートフォンの他にも、タブレット、AndroidTV、セットトップボックス、Playstation等、対応するデバイスが数多くあります。一つのプラットフォームで成立した改善が他のデバイスにも適用出来るとは限らない為、実験のプロセスを体系化し横展開を可能にする必要があります。
前編で触れた通り、現在U-NEXTはスケールのフェーズにあります。一部の専門家の知見や経験に依存しない拡大・持続可能な仕組みを構築する為、この様な方針で取り組んでいます。
トップランナー達のABテストの取り組み
最後に世界を代表するサービス達のABテストの取り組みを幾つか紹介したいと思います。
1. Facebook
Facebookはアプリはモバイル版登場から長らくHTMLベースでしたが、PCとモバイルのユーザー数の逆転に伴い2012年にネイティブアプリへのリプレースを行いました。
従来Gatekeeperという自社システムを利用していましたが、2014年にブログで「Airlock」というモバイル用ABテストプラットフォームを新たに構築した事を明かしています。
Airlock - Facebook's mobile A/B testing framework
また同年「Deltoid」というABテストリアルタイム解析システムの概要を紹介しています。
何れのシステムも全容は明かされていませんが、CEOのマーク・ザッカーバーグは2016年のインタビューで以下の様に語っています。
私たちは巨大なテスティング・フレームワークに投資をしました。
このフレームワークによってエンジニアは1〜10万規模のユーザーに限定して思いついたアイディアを試す事が出来る為、現在数万のバージョンのFacebookが同時に稼働しています。
(一部省略)
全ての変更を私を含む経営陣が承認しなければいけない状況に比べて、はるかに多くの進歩を生み出す事が出来ています。
このインタビューからFacebookはABテストにおける実験を、経営陣の意思決定を伴わない形で実行している事が判ります。また数万のテストともなれば確実にエンジニア以外も実験に加わっている、非常に高度なプラットフォームである事が想像出来ます。
2. Netflix
Netflixも様々なABテストに取り組んでいる事で知られていますが、中でも独特なのが「作品のサムネイル画像」のABテストです。
彼らは「アプリ起動後90秒以内に視聴する作品を決定させなければ離脱する」というベンチマークを掲げており、人間の視覚の処理速度に着目しUI上に表示する映画・ドラマのサムネイルをそれぞれ複数パターン用意しABテストを行っています。
以下は「DAREDEVIL」という作品に6パターンのサムネイルを用意し、実験を行った例です。
テストの結果コンバージョンの高い方を採用しますが、言語・地域によって好まれるサムネイルの傾向についても知見が蓄積されているようです。以下の例は同じ「sense 8」という作品のサムネイルが各国で好まれるパターンがどの様に違うかを示した例です。
(参考)
Improving the power of a picture at Netflix -- the Science and Engineering Behind the Curtain
3. Uber
Uberは今年の4月に独自ABテストフレームワーク「XP(experimentation platform)」を発表しています。
・社内の誰でも実験をする事が出来る。
・高いリアルタイム性による結果の検証。
が特長のようです。
(参考)
Building an Intelligent Experimentation Platform with Uber Engineering
4. Spotify
SpotifyはABテストのプラットフォームについては公表していませんが、GithubにHubFrameworkというUIフレームワークを2016年に公開しています。これはリリースを伴わずにUI構造を動的に変更する事が出来るフレームワークでABテストを見越して作られたと述べられています。
(参考)
Github: spotify/HubFramework
5. Dropbox
2017年3月に「Stormcrow」という独自のABテストプラットフォームを公表しています。モバイルアプリ、Web、インフラストラクチャを問わず動的にロジックを分岐する事が出来るとの事です。
(参考)
Introducing Stormcrow
6. Intuit
QuickBooks等の会計サービスで有名なIntuitは2017年1月に自社ABテストプラットフォーム「Wasabi」をオープンソースで公開しています。会計というサービスの性質上、他社のサービスを利用する事が難しく独自で開発したものです。自社サーバーでもクラウドでも運用出来る事が可能で、Intuitでは公開時点で同時約1000のテストを並列実行しているとの事です。
(参考)
Meet Wasabi, an Open Source A/B Testing Platform
7. Pinterest
データドリブン・カンパニーを自称するPinterestも、独自のABテストプラットフォームを2015年から運用しています。
(参考)
Building Pinterest’s A/B testing platform
8. メルカリ
最後に日本のメルカリですが、以前より独自のABテストプラットフォームを運用しており、同時数十パターンのテストを実行していると語られています。
(参考)
ドロワー vs 下タブの舞台裏
「Facebookなんかだと、少しずつ違う機能や見た目が部分的に反映された、何万というABテストが(同時に)走っている。メルカリでも数十本は走ってる。米国版ではテストが特に多い。(米国版の機能で)日本だと受け入れられるかどうか、というものは日本でもテストしているので、パターンは膨大にある」(山田氏)
(参考)
メルカリ創業者の山田進太郎氏、日米5500万DLの躍進をTechCrunch Tokyoで語る
より科学的になっていくグロースのアプローチ
この様に独自のABテストプラットフォームの存在を明らかにしているものの、全容については伏せている事から各社共にABテストプラットフォームがサービスの成長エンジンに位置付けられていると見て間違いないと考えています。
何れのプラットフォームも
・リアルタイムの分析が前提になっている
・千〜数万オーダーのテストを実行している
という事実から、エンジニア・非エンジニアを問わず実験を行っている事が垣間見えます。
以上の事実より、先進的なサービスでは間違いなくグロースはより科学的なアプローチに変化しており、その速度は今後機械学習等の技術の進化により、更に加速していくだろうと想像出来ます。
ABテストによってより多くの実験から学びを得て、改善へ繋げる取り組みが今後確実にサービスの明暗を分けていくでしょう。
これからもグロースやデータ分析・活用について、noteで知見を共有していきたいと思います。
もし参考になりましたら、「スキ」ボタンをよろしくお願いします。 👇