見出し画像

わりと身近なベイズ推定

自己紹介

初めまして。データビジネスデザイン事業本部の荒牧です。主に広告/施策の貢献量把握や、予算配分の最適化、未来予測など、データ分析周りを手広く行なっております。

今日はデータ分析を生業にしている方なら一度は耳にしたことがあるであろう「ベイズ推定(統計学)」についてお話ししたいと思います。
実はこれ、皆さんも日々知らず知らずのうちに活用しています。ベイズという言葉を初めて聞いたという方は、ぜひ一緒に考え方だけでも勉強してみましょう。

ベイズの定理とは

ベイズという名称はトーマス・ベイズという方の名前に由来しており、ベイズ推定の基となっているベイズの定理は以下の式で表されます。

確率に関心がある方は理解できると思いますが、普段の生活では見かけない数式ですよね。

数式の理解が目的ではないので説明は割愛しますが、この理論は以下のような場面で活用されています。

  • 迷惑メールのフィルタリング

  • ネットの検索エンジンの予測変換

  • ECサイトのレコメンド機能

こう言われると我々の身近に存在する理論だということがお分かりいただけるかと思います。

迷惑メールのフィルタリングとベイズ推定

迷惑メールのフィルタリング機能を例に、ベイズ推定の活用を考えてみましょう。普段から受信しているアドレスからのメールであれば、迷惑メールか否かという判断は容易につきます。しかしながら、初めて受信したアドレスからのメールについては、判断が難しいところです。そういったときに、メールの内容にURLが記載されているかどうかを判断材料として、ベイズ推定を試みてみます。

ベイズ推定とは「ある行動(情報)が得られた時に、状態Aである確率を、行動(情報)を基に考え直すこと」と考えてもらえれば良いと思います。上記の例でいくと、メールの中にURLが入っているという「情報」が得られたときに、そのメールが迷惑メールである確率を算出し直すということです。

上記の例を用いてベイズ推定の流れをお話しすると、順序としては以下になります。

① 事前分布を設定。
② 行動(情報)が得られる。
③ 事後分布を推定し直す(算出し直す/考え直す)。

分布の説明に入ってしまうと、ややこしくなってしまいますので、割愛させてください(後ほど触れます)。①はメールの内容を把握する前に、そのメールが迷惑メールだとフィルタリング機能が判断する確率、②はメールの内容にURLが含まれていたという情報、③は②の情報を考慮して、迷惑メールである確率を算出し直す、と考えることができます。※1

普段受け取るメールに迷惑メールが多いからといって、全てを迷惑メール判定していたら大変なことになってしまいます。ベイズ推定では、普段の傾向に、ある情報(ここではURLが入っているという情報)を得たことで、より正確に迷惑メールかどうかを判断する(確率を算出し直す)ことができるというわけです。

ベイズ推定は③の結果を①に置き直すことで、①→③の流れを繰り返すことができ、より現実的な確率に近付けていくことが可能です。皆さんも日常生活において「何かしらの情報を基に改善していく」といった行動はきっと行なっています。それと同じです。
この推定方法は機械学習等、いろんな分析手法に絡めることができる理論であり、様々な場面で活用されています。実際に私も業務でこのベイズ推定を活用して、分析やモデリング等を行なっています。

一般的な統計的推定とベイズ推定の違い

ではこの理論を実務のどのような場面で使用しているのかですが
「回帰分析」や「ロジスティック回帰」といった言葉を耳にしたことはありませんか?
これらは膨大なデータから「要因となる数値」と「結果となる数値」の関係を調べ、それぞれの関係性を明らかにする分析手法です。例えば、売上を上げている要因は何か、その要因はどれくらいの影響力があるのか、といったことを分析する際に使用できます。上記の例において、要因 = 広告とすると、回帰分析では「広告の影響力は50です!」といった一意の値が結果となります。

 ただ、上記を詳細に述べると「手元にある一部のデータから考えられる、広告の影響力は平均的に50です。」ということになります。回帰分析自体は手軽に扱えて便利な分析手法ですが、こう言われると少し引っ掛かりますよね。「一部のデータから」の部分について、ある程度のデータ量を確保できていれば大きな問題はありませんが、データ全体が見えていないにも関わらず、「影響力は50だ」と決めるのは、少し気になります。この点に対し、ベイズ推定では「広告の影響力は50の可能性が高いが、49の可能性も少なからずあり、51の可能性もあるよね」といった考え方をします。これが先ほど出てきた「分布」の正体です。(ベイズ推定の結果は一意の値ではなく、影響力の確率分布となります。)

マーケティングの現場において利用される観測データには、調査誤差や観測誤差もあるでしょう。より身近な例で考えると、飲酒量の平均が週あたり2缶という人でも、全く飲まない週もあれば、4缶以上飲む週もあると思います。各データにバラ付きがあることを考慮した上で分析できるということは、現実に生きている生活者の行動を軸にしたモデリングと相性良く感じます。※2

上記分析においては、ある一時点(タイミング)の影響力の算出に留まっており、影響力は日々変わっていくことを考慮できておりませんが、構造時系列モデルといった状態空間モデルを取り入れることで、ベイズ推定を時系列データに対応させることもできます。

このように、分析手法は日々発展していきますが、それでも分析に限界はあります。そのため、こういった分析/モデリングはこれまで「勘」や「経験」で向き合ってきた部分を代替えできるものではなく、勘や経験を軸に、新しい発見を見付けていくことが、マーケティングの中で数理モデルが果たす役割なのかと考えたりします。ベイズ推定の良さは事前分布(情報/経験)を分析者側で設定できる部分にもあるので、そういった意味でも、今後も使われ続ける分析手法/推定法なのではないかと思います。

※1. 今回お話ししたベイズ推定の順序例③において「迷惑メールである確率を算出し直す」と記載していますが、詳細を述べると「迷惑メールであると判断する確率分布の期待値を、分布を推定し直すことで、算出し直す」となります。

※2. 一般的な統計的推定と比較して、ベイズ推定の方が良いというわけではなく、どちらにもメリット/デメリットがあります。そもそも無視できる誤差レベルであれば、誤差を考慮する必要はなく、回帰分析は非常に扱いやすい分析手法です。

※3. 条件付確率(とある条件下での確率)とベイズの定理は混同されやすいですが、条件付確率は時間の流れに沿って「Aが起こったときの結果Bの確率」を求めるものです。ベイズの定理は条件付確率の逆確率であり、時間の流れに逆らって「結果Bを得たときのAの確率」を求めるものと考えられます。

※4. 事前情報(分布)を扱わないベイズ推定は最尤推定といいます。