見出し画像

【ベイズ統計②】ベイズ学習を体感してみる

前回のノートでは、ベイズの定理について解説しました。計算手法ではなく、式の心をまとめたわけです。

今回は、実際に問題を解いていくことでベイズの定理について理解を深めて行きましょう。


【前回のあらすじ】:映画館は空いている方がいい

なるべく混雑しないタイミングで映画を見たいエイコさんは、映画館がどのくらい混んでいるか予想しようとしています。

予想その①:混んでいるかなんて、行ってみなければわからない

P(映画館が混雑している)=1/2

とてもシンプルな予想です。

予想その②:日曜日であること

続いてエイコさんは、混雑予想に使えそうな情報に気づきました。それは、その日が日曜日であることです。

P(映画館が混んでいる|日曜日)

予想したい確率は、上記のように置き換わりました。今回は、この「日曜日だと分かったうえで、映画館が混んでる確率」を具体的な数字で考えていきます。

【本編①】まずはベイズの定理を使ってみる

今回はベイズの定理の証明も行いますが、まずは実際に計算してみましょう。ベイズの定理に映画館での例を当てはめてみましょう。

画像4

前回の記事では、P(日曜|混雑)の部分は尤度、P(混雑)は事前確率と呼ばれる理由を考えました。今回はこの式に具体的な数字を当てはめて計算していきましょう!

まず、事前確率P(混雑)はエイコさんの予想に基づき1/2を使用しましょう。尤度P(日曜|混雑)を決定するために、エイコさんは知人50人にアンケートを実施しました。質問はシンプルに「日曜日の映画館って、混んでるかな?」です。適切かどうかはさておき、今回はこれを「経験に基づくデータ」の例として扱います。次のようなアンケート結果が得られました。

混んでる:40人
混んでない:10人

このアンケートにより、エイコさんは尤度を次のように設定することができました。

P(日曜|混雑)=40/50=0.8

ベイズの定理の右辺は、残すところ分母のP(日曜)のみになりました。ここでは計算過程も示しますが、少しテクニカルなので、過程については読み飛ばしていただいても後の議論には影響しません。

P(日曜)
= P(日曜, 混雑) + P(日曜, 混雑しない)
= P(日曜|混雑)P(混雑) + P(日曜|混雑しない)P(混雑しない)
= 0.8 * 0.5 + 0.2 * 0.5
= 0.5

P(日曜)は、一週間のうちの一つの曜日なのだから1/7じゃないの、と思う方もいらっしゃると思います。今回のエイコさんの視点では、関心のある「日曜日」と「それ以外の曜日」の2つに分けられている、と解釈できます。

では、ベイズの定理にそれぞれの計算結果を代入してみましょう。

事後確率P(混雑|日曜)
= P(日曜|混雑) * P(混雑) / P(日曜)
= 0.8 * 0.5 / 0.5
= 0.8

無事に事後確率を計算することができました。

【本編②:事後確率の解釈】

さて、0.8と計算された事後確率ですが、この数字は皆さんにとって納得のいくものでしょうか?

大まかには直観に反さない、と思われるのではないでしょうか。もともと0.5という、あまり情報を持たない混雑予想が、アンケート結果という情報によって0.8へと更新されています。

事前確率からベイズ更新を使って、データを事後確率に反映させるこの過程が、ベイズ統計学の根幹を成しています。前回ご紹介した、ベイズの定理

事前確率(予想)に尤度(経験)を掛け合わせることで事後確率(経験に基づく予想)を求めることができる!

という性質を感じていただけたのではないでしょうか!

【次回予告】

次回は、ベイズ更新を繰り返すことで予想の精度が上がっていくことを確認していきます。ベイズの定理を使った、さらに複雑な式変形へと踏み込んでいきます!


いただいたサポートは、主に本の購入費用になります。まとまった金額になりましたら、noteの投稿などを通じて、皆様に還元していければと思っております。