アセットマネージャーのためのファイナンス機械学習:特徴量の重要度分析 練習問題 偽陽性率とp値
「患者は健康である」を帰無仮説$${H_0}$$とし、観測測定値を$${x}$$、優位性の閾値を$${\tau}$$の医療検査の偽陽性率が$${\alpha=P[x>\tau | H_0]}$$で与えられているとする。
対立仮説「患者は症状を持つ」を$${H_1}$$として、それぞれが真の場合と、その棄却、採択を混同行列で示せば、
$${\begin{array}{c|c|c} &陽性 & 陰性 \\ \hline 患者は健康である & 偽陽性(FP)& 陰性(TN) \\ 患者は症状を持つ & 陽性(TP)& 偽陰性(FN) \end{array} }$$
となる。
ここで、与えられている$${\alpha}$$は偽陽性率$${\displaystyle{\frac{FP}{TN+FP}}}$$であり、この時、この検査によって、患者が本当にその症状になっている確率は、
$${\displaystyle{\frac{TP}{TP+FP}}}$$で与えられる。よって、$${P[H_1|x > \tau]}$$の適合率である。
p値は、帰無仮説が正しいとした時に、観測値のようなデータが得られる確率である。よって、低いp値は、観測値のようなデータが得られる確率は低く、帰無仮説は棄却されると判断する。よって、この場合のp値は、患者が健康である確率をデータによって導出している。
完全再現性がある医療検査の偽陽性率と偽陰性率が$${\alpha=.01, \beta=0}$$で、症状の確率$${P[H_1]=.001}$$である。$${\beta=0}$$から完全再現性がある。
これらを混合行列に当てはめれば、
$${\begin{array}{c|c|c} &陽性 & 陰性 \\ \hline 患者は健康である & 0.01 & 0.99 \\ 患者は症状を持つ & 1& 0 \end{array} }$$
よって、陽性の患者が実際に病気である確率は、$${\displaystyle{\frac{0.001\times 1}{0.001\times 1+(1-0.001)\times 0.01}\sim 0.091}}$$で、$${1-\alpha=0.99}$$、$${1-\beta=1}$$よりも遥に低い。
よって、1回目の検査で陽性となった結果のうち、実際に病気である確率は0.091で、同じ検査を独立で行った場合、2回目に陽性となり、実際に病気となっている確率は、$${1\times 0.091/(1\times 0.091+0.001\times 0.909)\sim 0.909}$$と計算される。
この記事が気に入ったらサポートをしてみませんか?