見出し画像

4-2 ベイズの定理 ~ 四角形の面積と計算式で陽性判定

今回の統計トピック


ベイズの定理を利用して、レアのクッキーや陽性判定の確率を求める問題に挑みます。

公式問題集の準備

「公式問題集」の問題を利用します。お手元に公式問題集をご用意ください。
公式問題集が無い場合もご安心ください!
「知る」「実践する」の章で、のんびり統計をお楽しみください!

問題を解く


📘公式問題集のカテゴリ

確率の分野
問2 ベイズの定理(カモノハシのクッキーの確率)

試験実施年月
統計検定2級 2018年11月 問7(回答番号11)

問題

公式問題集をご参照ください。

解き方

題意
次の条件で、「カモノハシの絵を含む」場合に「工場Aで製造される」確率を求めます。

商品の製造工場の確率
 工場Aで製造する商品を仕入れる確率: 70%
 工場Bで製造する商品を仕入れる確率: 30%
クッキーの中にカモノハシの絵が含まれる確率
 工場Aで製造するクッキーにカモノハシの絵を含む確率: 2%
 工場Bで製造するクッキーにカモノハシの絵を含む確率: 8%

公式問題集の記述を改変
カモノハシのイラスト:「いらすとや」さんより

図で解く
横1・縦1・面積1の正方形を利用して、仕入れたクッキーのうち「カモノハシの絵を含む」場合に「工場Aで製造する」割合=確率を求めます。

仕入れたクッキーのうち「カモノハシの絵を含む」確率は、次の①と②の合計 0.038 です。
①「工場Aで製造する」クッキー 0.7 に「カモノハシの絵を含む」割合 0.02 を掛けた 0.014
②「工場Bで製造する」クッキー 0.3 に「カモノハシの絵を含む」割合 0.08 を掛けた 0.024

仕入れたクッキーのうち「カモノハシの絵を含む」場合に「工場Aで製造する」確率は、①の 0.014 を 0.038 で割った 0.3684・・・です。
答えは 0.368 です。

ベイズの定理で解く
まず、事象を次のように定めます。
・工場Aで製造する事象:$${A}$$
・工場Bで製造する事象:$${B}$$
・カモノハシの絵を含む事象:$${K}$$

求める確率は、仕入れたクッキーが「カモノハシの絵を含む事象$${K}$$」の場合に「工場Aで製造する事象$${A}$$」の起きる条件付き確率 $${P(A \mid K)}$$ です。

問題文より、次の確率を得ます。
・「工場Aで製造する事象$${A}$$」の確率:$${P(A)=0.7}$$
・「工場Bで製造する事象$${B}$$」の確率:$${P(B)=0.3}$$
・「工場Aで製造する事象$${A}$$」の場合に「カモノハシの絵を含む事象$${K}$$」の起きる条件付き確率:$${P(K \mid A)=0.02}$$
・「工場Bで製造する事象$${A}$$」の場合に「カモノハシの絵を含む事象$${K}$$」の起きる条件付き確率:$${P(K \mid B)=0.08}$$
これらの内容をベイズの定理に当てはめて、確率を計算します。

【ベイズの定理に当てはめ】

$$
\begin{align*}
P(A \mid K) &= \cfrac{P(A)\ P(K \mid A)}{P(K)} \\
 \\
&=\cfrac{P(A)\ P(K \mid A)}{P(A)\ P(K \mid A)+P(B)\ P(K \mid B)}
\end{align*}
$$

【計算過程】

$$
\begin{align*}
P(A \mid K)& = \cfrac{0.7 \times 0.02}{0.7 \times 0.02+0.3\times 0.08}\\
 \\
&=\cfrac{0.014}{0.014+0.024}\\
 \\
&=0.3684 \cdots
\end{align*}
$$

答えは 0.368 です。

クッキーのイラスト:「いらすとや」さんより

解答

② 0.368 です。

難易度 やさしい

・知識:条件付き確率、確率の乗法定理、ベイズの定理
・計算力:数式組み立て(低)、電卓(低)
・時間目安:1分

知る


おしながき

公式問題集の問題に接近してみましょう!
今回は、類似問題を一緒に解いていきましょう!

ベイズの定理

📕公式テキスト:2.3 ベイズの定理(62ページ~)

類似問題
病気の陽性検査について考えます。
ある病気が流行していて、1% の確率で病気に罹患しています。
検査では病気に罹患している人の 90% に陽性判定が出ます。
また、病気に罹患していない人の 20% に陽性判定が出ます。

検査をした人から無作為に1人を選んだとき、その人が陽性判定が出ていて実際に罹患している確率は何%でしょう。

安全キャビネットで検体を取り扱う人のイラスト:「いらすとや」さんより

事象と確率
病気に罹患している事象を$${A}$$、陽性判定が出る事象を$${B}$$とします。
確率は$${P}$$の記号を用います。
病気に罹患している事象の確率は$${P(A)}$$と表し、確率が 0.01 なので、$${P(A)=0.01}$$です。
ちなみに、陽性判定が出る事象の確率は$${P(B)}$$と表します。

余事象と確率
病気に罹患していない事象は「病気に罹患している事象$${A}$$」以外の事象です。
このような「ある事象$${A}$$以外の事象」を余事象と呼び、$${A^C}$$と表します。
病気に罹患していない事象の確率は$${P(A^C)}$$と表し、確率が 0.99 なので、$${P(A^C)=0.99}$$です。
事象$${A}$$の確率と余事象$${A^C}$$の確率を足すと 1 になります。
$${P(A)+P(A^C)=1}$$です。
ちなみに、陽性判定が出ない事象の確率は$${P(B^C)}$$と表します。

事象・余事象の確率を図にします。

条件付き確率
病気に罹患している場合に陽性判定が出る確率は$${P(B \mid A)}$$と表します。
確率が 0.9 なので、$${P(B \mid A)=0.9}$$です。
$${P( 陽性判定が出る \mid 病気に罹患している)}$$という意味であり、「病気に罹患している」という事象が起きる条件のときに「陽性判定が出る」確率です。
条件付き確率と呼びます。

病気に罹患していない場合に陽性判定が出る確率は$${P(B \mid A^C)}$$と表します。
確率が 0.2 なので、$${P(B \mid A^C)=0.2}$$です。

陽性判定が出る場合に病気に罹患している確率は$${P(A \mid B)}$$です。
この類似問題の問いは、条件付き確率$${P(A \mid B)}$$を求めることです。

図にします。

ベイズの定理に飛びます
唐突ですが、条件付き確率の定義です。

$$
P(A \mid B) = \cfrac{P(B \cap A) }{P(B)}
\tag{1.1}
$$

両辺に$${P(B)}$$を掛けて変形すると確率の乗法定理になります。

$$
P(B \cap A)=P(B)\ P(A \mid B)
\tag{1.2}
$$

BとAを入れ替えて、式1.1、式1.2と同じ操作をします。

$$
P(A \cap B)=P(A)\ P(B \mid A)
\tag{1.3}
$$

$${P(B \cap A)=P(A \cap B)}$$なので、式1.2と式1.3から次の式を導きます。

$$
P(B)\ P(A \mid B)=P(A)\ P(B \mid A)
\tag{1.4}
$$

両辺を$${P(B)}$$で割ります。

$$
P(A \mid B)=\cfrac{P(A)\ P(B \mid A)}{P(B)}
\tag{1.5}
$$

右辺の分母「陽性判定が出る事象$${B}$$」の確率$${P(B)}$$は、次の2つの確率を足したものです。
・「病気に罹患している事象$${A}$$」と同時に「陽性判定が出る事象$${B}$$」の起きる積事象の確率$${P(A \cap B)}$$
・「病気に罹患していない事象$${A^C}$$」($${A}$$の余事象)と同時に「陽性判定が出る事象$${B}$$」の起きる積事象の確率$${P(A^C \cap B)}$$

$$
P(A \mid B)=\cfrac{P(A)\ P(B \mid A)}{P(A \cap B)+P(A^C \cap B))}
\tag{1.6}
$$

確率の乗法定理(式1.2、式1.3)より、$${P(A \cap B)}$$と$${P(A^C \mid B)}$$に次の等式が成り立ちます。

$$
P(A \cap B)=P(A)\ P(B \mid A)\\
 \\
P(A^C \cap B)=P(A^C)\ P(B \mid A^C)
\tag{1.7}
$$

式1.6に式1.7を代入するとベイズの定理の完成です。

$$
P(A \mid B)=\cfrac{P(A)\ P(B \mid A)}{P(A)\ P(B \mid A)+P(A^C)\ P(B \mid A^C)}
\tag{1.8}
$$

ベイズの定理で類似問題を解く
式1.8に以下の値を代入して、答えを求めます。

  • 病気に罹患している事象の確率$${P(A)=0.01}$$

  • 病気に罹患していない事象の確率$${P(A^C)=0.99}$$

  • 病気に罹患している場合に陽性判定が出る確率$${P(B \mid A)=0.9}$$

  • 病気に罹患していない場合に陽性判定が出る確率$${P(B \mid A^C)=0.2}$$

$$
\begin{align*}
P(A \mid B)&=\cfrac{0.01 \times 0.9}{0.01 \times 0.9+0.99 \times 0.2}\\
 \\
&=\cfrac{0.009}{0.09+0.198} \\
 \\
&=0.0434 \cdots\\
\end{align*}
$$

答えは 4.3% です。

図にします。
黄色の面積が「陽性判定が出る確率$${P(B)}$$」です。
このうち、「病気に罹患していて陽性判定が出る」確率$${P(A)\ P(B\mid A)}$$は左の縦長の部分であり、確率は0.009です。

黄色の面積全体$${P(B)=0.009+0.198}$$に占める、「病気に罹患していて陽性判定が出る」確率$${P(A)\ P(B\mid A)=0.009}$$の割合は、0.0434・・・です。
答えは 4.3% です。

ベイズの定理の計算式が苦手な場合は、この四角形の面積割合の計算方法を利用して、ベイズの定理に接近しましょう!

また、ベイズの定理に出現する条件付き確率は、右辺(計算結果)と左辺(計算の素)とで、事象の起きる順序が逆転しています。
この逆転のルールを覚えることで、ベイズの定理が記憶に残りやすくなるかもです。

まとめます。
検査をした人から無作為に1人を選んだとき、その人が陽性判定が出ていて実際に罹患している確率は 4.3% です。

陽性判定が出たにもかかわらず、罹患しているのが 4.3% というのは、・・・です。
発熱などの発症がある人に検査を行うと、陽性判定が出て罹患している確率が高くなるのかもしれません。
(おわり)

MRI・CTスキャンのイラスト(健康診断):「いらすとや」さんより

公式のまとめ

ベイズの定理(事象Bが単パターン)

$$
\begin{align*}
P(B \mid A) &= \cfrac{P(B)\ P(A \mid B) }{P(A)}\\
&=\cfrac{P(B)\ P(A \mid B)}{P(B)\ P(A \mid B)+P(B^C)\ P(A \mid B^C)}
\end{align*}
$$

ベイズの定理(事象Bが複数パターン)

$$
\begin{align*}
P(B_i \mid A) &= \cfrac{P(B_i)\ P(A \mid B_i) }{P(A)}\\
&=\cfrac{P(B_i)\ P(A \mid B_i)}{\displaystyle \sum^n_{j=1}P(B_j)\ P(A \mid B_j)}
\end{align*}
$$

$${P(B),\ P(B_i)}$$を事前確率、$${P(B \mid A),\ P(B_i \mid A)}$$を事後確率と呼びます。

実践する


今回はお休みです。


電卓・手作業で作成してみよう!

今回はお休みです。

EXCELで作成してみよう!

今回はお休みです。

EXCELサンプルファイルのダウンロード
今回はファイル提供はありません。

Pythonで作成してみよう!

今回はお休みです。

Pythonサンプルファイルのダウンロード
今回はファイル提供はありません。


おわりに

ベイズの定理は「ベイズ統計」のスタート地点に相当します。

「ベイズ統計」は、事前に設定した事前確率$${P(B)}$$があり、新しく取得した情報$${\cfrac{P(A \mid B)}{P(A)}}$$を用いて確率を更新して、事後確率$${P(B \mid A)}$$を得る、という考え方を取っています。

事後確率はその後も新しい情報に基づいて、どんどん更新されます。
情報を取得して動的に確率を最新化するのです。

ベイズ統計の実用例でよく紹介されているのは、電子メールの迷惑フィルタです。

スパムメール・迷惑メールのイラスト:「いらすとや」さんより

最後までお読みいただきまして、ありがとうございました。


のんびり統計シリーズの記事

次の記事

前の記事

目次

いいなと思ったら応援しよう!