ベイズの定理と感度と特異度
はじめに
このnoteは、新型コロナウイルスのRT-PCR検査の信頼性を測る際に用いられる「ベイズの定理」と、付随する用語(「感度」や「特異度」など)についての解説を試みたものである。本題に入る前に長い愚痴があるが、はっきり言って筆者のストレスの発散のための日記であり、本題にとっては蛇足であるので、「ベイズの定理」という節まで飛ばすことをおすすめする。
検査抑制派の跋扈する日本
日本では世界がコロナウイルスで大騒ぎを始めた2020年2月頃から今日に至るまでPCR検査の数が他国に比べて異常に少なく、それは今でも大きく変わっていない。
検査数が増えない要因はさまざまなものが指摘されているが(例えば、保健所のスタッフの少なさや集計に利用するFAXの台数など)、今回はその話は省略する。
日本には不思議なことに「検査抑制派」とよばれる、謎の医者や御用文化人が存在する。「10~40歳くらいの元気な人は普通の風邪のような感じで『家で寝とけ』って政府がバシッと言えばいい」「元気な人は皆感染してもいいんじゃないの」(平熱パニックおじさん)だとか、Twitterのお手洗い医者クラスタ連中などが代表的な論者であるが、中には地位のある医者・研究者の中にも「検査抑制派」は多い。次のブログにはそんな抑制派の発言が時系列でまとめられている。
さて、そんな検査抑制派たちは、PCR検査による「偽陽性」、すなわち「感染していないにもかかわらずPCR検査で陽性とされること」を特に問題視しており、最近のトレンドは「感染者ではないのに陽性と判定されて隔離や外出禁止などを強制されたなら、それは人権侵害ではないか?」という主張を頻繁に見かけるようになった。普段は「徴兵制復活」などを唱えている人間がある日突然人権に目覚めるさまはひどく滑稽ではあるが。また、PCR検査が「偽陰性」を示した場合、つまり「実際は感染しているにもかかわらずPCR検査で陰性とされること」も問題にする。感染してるのに陰性じゃないと言われたら外を歩き回ってウイルスをまき散らすから問題だ、そんな検査は意味がない、などと主張することもある。陽性者が検査なしで歩き回るのはいいんかい、と総ツッコミが入るがどこ吹く風である。アタオカすぎる。
FUDをしかける検査抑制派
彼ら検査抑制派が取っている戦略は "FUD"( "Fear, Uncertainty and Doubt" の略。直訳すると「恐怖、不安、疑念」)とよばれるもので、PCR検査の危険性を誇張して恐怖や不安を煽り、「PCR検査はしちゃいけないんだ」と思わせるのである。
医者のような専門家、政治家のような権威がFUDを仕掛けてきた場合、非専門家たる一般大衆がこれに対抗するのは難しい。善良な人間であればあるほど専門家の善意(に見せかけたお為ごかし)を疑わず、無批判に受け入れてしまいがちである。
しかし、簡単に騙されないためには「他人の話を鵜呑みにせず、できるだけ自分で調べられるところは調べ、自分の頭で考える」という行動が必要だ。
しかし、「自分で調べる」にしても最低限の知識は必要である。知識と言っても義務教育・高校レベルの程度のもので十分なのだが、学習した内容を忘れている人間が存外多いというのが、正直な感想である。
大手マスメディアもインターネットも嘘つきが跋扈し、間違いだらけの情報が乱れ飛んでいる。「どのメディアが信用できて、どのメディアが信用できないかを見分ける能力」のことを「メディア・リテラシー」というのだが、この能力もまた日々の鍛錬として「他人の話を鵜呑みにせず、できるだけ自分で調べられるところは調べ、自分の頭で考える」ことを続けていなければ、一生騙される側にい続けなければならないことを覚悟してほしい。
ベイズの定理
いよいよ本題である。このnoteは「ベイズの定理」がテーマであるのだが、元々は「PCR検査の偽陽性」が、どれくらいの頻度で発生するのだろうか、ということを目的としている。
当然、まともな医者・研究者たちはPCR検査の精度について必死に研究しており、医学論文の査読前のプレプリントのアーカイブである「medRxiv」(メド・アーカイブ) にも多くの論文がアップロードされている。
検査の精度を調べる上で基本となるのが、「ベイズの定理」という、確率に関する次の恒等式である:
記号の意味を説明すると、「D」や「T」はここでは
D・・・「新型コロナウイルスに感染している」という事象
D^c・・・「新型コロナウイルスに感染していない」という事象
T・・・「PCR検査で陽性になる」という事象
ということであり(「事象」とは、「出来事」を意味する確率論の用語)、「P(D)」や「P(T)」などは、「事象Dの起こる確率」や「事象Tの起こる確率」という意味で、まとめると
P(D)・・・新型コロナウイルスに感染している確率
P(D^c)・・・新型コロナウイルスに感染していない確率(=1-P(D))
P(D|T)・・・PCR検査陽性であるとき、本当に感染している確率
P(T|D)・・・新型コロナウイルスに感染しているとき、PCR検査が陽性になる確率
P(T|D^c)・・・新型コロナウイルスに感染していないとき、PCR検査が陽性になる確率
という意味になる(「D^c」はDの右肩上に「c」がある状態を表している)。
なお、「P(D|T)」は「事象Tが起きた条件下で事象Dが起きる条件付き確率」とよばれるもので、高校数学では
と書いていたことを覚えている人もいるだろうか。この二つの記号の意味は若干違うのであるが値は同じである。
ベイズ推定では、一般にP(D)のことを「事前確率」、P(D|T)を「事後確率」というのだが、PCR検査などの医療検査にベイズの定理を適用するときには、事前確率を「検査前確率」や「有病率」、事後確率を「陽性的中率」ということが多い。その他の用語もまとめておこう。
P(D)・・・事前確率・検査前確率・有病率。考えている対象全体が新型コロナウイルスに感染している確率
P(D|T)・・・事後確率・陽性的中率。PCR検査が陽性であるとき、本当に感染している確率
P(T|D)・・・感度。新型コロナウイルスに感染している人が、PCR検査で陽性となる確率
1-P(T|D)・・・偽陰性率。感染している人が、PCR検査で陰性となる確率
1-P(T|D^c)・・・特異度。感染していない人が、PCR検査で陰性となる確率
P(T|D^c)・・・偽陽性率。感染していない人が、PCR検査で陽性となる確率
という用語を使う。なお、「偽陽性・偽陰性」のことを「擬陽性・擬陰性」と書く人間がいるが、明確に間違いである。
さて、ベイズの定理(1)の基本的な使い方は次のようになる。
いま、PCR検査の陽性的中率P(D|T)を知りたい。P(D|T)の値を知るには式(1)の右辺の各項の値がわかればよい。つまり、事前確率(有病率)P(D)、感度P(T|D)、偽陰性率P(T|D^c)、感染していない確率P(D^c)の4つの値がわかればよい。
ここで、P(D^c)の値は1-P(D)となるので、事前確率P(D)がわかれば十分。
また、偽陰性率P(T|D^c)がわかるには、特異度1-P(T|D^c)の値がわかればよい。
以上のことをまとめておこう。
陽性的中率 P(D|T)の値を知るには
・事前確率(有病率) P(D)
・感度 P(T|D)
・特異度 1-P(T|D^c)
の3つの値がわかれば、ベイズの定理(1)から計算で求めることができる。
新型コロナウイルスに対するPCR検査の事前確率、感度、特異度の真の値はいくらなのか
前述したように、世界中の研究者がこの3つの値「事前確率(有病率)・感度・特異度」を求めることに必死である。感度・特異度に関しては世界のどこでやっても同じ値になることが期待されるが、有病率に関しては地域差が大きく、各国・各地において綿密な疫学調査が必要となる。1つだけ日本の事例の研究論文を紹介しておこう。
この論文では、2020年の1月29日、30日、31日に日本政府がチャーター便を出して武漢から邦人を移送した際のデータと、先行研究の武漢での事前確率の予測値を元にして、PCR検査の特異度(specificity)を推定している。結論は「新型コロナウイルスのPCR検査の特異度は99.7%以上である」であった。すなわち、「偽陽性率P(T|D^c)が0.3%未満」ということでもある。なお、この論文では検査の感度P(T|D)は70%と仮定しているが、これはこの手の研究の基準となる推定値で、経験則と思われる。
おわりに
以上でこのnoteは終わりである。誰かの役に立つことはあるのだろうか、はなはだ疑問ではある。
新型コロナウイルスにまつわるさまざまな言説の中でたびたび現れるベイズの定理の用語の解説を書くつもりでnoteを始めたが、書き始めてから完成まで随分時間が経ってしまった。反省しよっと。