検査性能をビジュアルで捉える
内科医の名取宏氏による記事です。
名取氏の記事は、がん検査にまつわる検査性能の数値が発表された場合、それが必ずしも特定の情況における性能の良さを示しているとは限らない事を指摘する、有意義で有用なものです。
そのように有用な記事ですが、読む人がすぐに理解できるとは限りません。いや、記事を読んですんなり理解できた人のほうが少ないやも知れません。だからこそ名取氏は、繰り返し同内容の記事を、少しずつアプローチを変えながら書いておられるのでしょう。
検査性能関連の説明がむつかしいのは、
検査性能の指標として複数の割合が出てきて、その割合は分母が異なっている
からでしょう。基本の指標の定義は、シンプルな割合に過ぎません。その意味では概念的に複雑な用語では無いのですが、しかし、指標同士を比較しようとすると、何に対する何の割合かがすぐにイメージしにくくなるのです。
議論に慣れた人ならば、頭の中で、着目されている概念に対応する図を描き出す事ができ、それを動かしていきながら話の筋を追えます。しかし、不案内な人にとっては、まず用語の定義に対応する割合がどれだったかを思い出しながら進める必要があり、次第に流れについていけなくなります。
そこで僭越ながら、議論の助けとするために、名取氏の説明に対応させるべく、図でもって補足を加えるのを試みます。
説明に使用する道具は以下のものです。
これはまさに、
検査性能に関する指標をビジュアルでイメージする助けとするために作った
ツールです。このツールによって説明していきます。
ツールは、(横長画面の場合)左から時計回りに
人口における割合を図で示したパネル
各指標に対応する値:数と割合
割合の細かさと数値を操作するパネル
このような構成です。
左のタイル状のパネルは、全体が対象の人口を表し、
縦の仕切り1本:特徴の保有と非保有を分ける
横の仕切り2本:陽性と陰性を分ける
このような構造です(2×2分割表の図示)。特徴というのは、対象が有する属性なり状態なりを表します。検診のように対象が病気(疾病)であれば、有病と表現されますが、対象とするのはそれだけとは限らないので、より一般的なものとして保有を使います。
縦の仕切りが動く事によって、人口に占める、特徴を保有する人の割合が変化します。これをそのまま保有割合とします。
ちなみに、そもそも
割合
とは、分数で表現できるような量であり、
分子が分母の一部分である、つまり分子が分母に含まれる
ものを言います。それに従えば保有割合とは、人口に占める保有者の割合だと解釈されます。左側には悪魔風の絵文字を入れてありますが、これは有病を表現する既定のものです。右下のパネルで自由に変えられます。
横の仕切りは2本と書きました。図では1本のように見えますがこれは、2本の仕切りが同じ高さにあるからです(伏線)。
薄赤は陽性
薄青は陰性
を表します。そして、保有者と非保有者をそれぞれ分けて考える時、
保有者における陽性の割合:感度
非保有者における陰性の割合:特異度
と言います。この種の議論ではお馴染みの用語ですが、用語自体を憶える必要は別に無いのです。重要なのは、何の何に対する割合に着目しているかを捉える事です。割合は、分子が分母に含まれるような量だと言いました。それを踏まえると、感度と特異度は、
縦の仕切りで分けられる各部分を分母とする割合
です。
ここまでが基本の指標です。ここから、名取氏の記事を参照しながら図解していきましょう。
“ランダムに5%を陽性、95%が陰性という結果を返す” とあります。これは要するに、
病気を持っていようが持っていまいが
という事です。検査として目標とするのは、
保有者での陽性の割合を大きくする
非保有者での陰性の割合を大きくする
ものです。陽性は病気があるかもと判定する結果で、陰性は病気が無いかもと判定する結果ですから、上記割合をそれぞれ大きくしたいのは当然です。しかるに名取氏の設定では、病気があっても無くても、陽性になる割合を5%にしています。図示しましょう。
このように、縦仕切りの左右で、陽性が少しの割合になっているのが判ります。縦仕切りがど真ん中にあるのは、いまのところ保有割合については情報が無いから既定にしています。
保有者でも非保有者でも、陽性になる人は5%の割合です。という事は、
人口に占める陽性者の割合
は、人口の5%です。保有非保有という条件が、その後の割合に違いをもたらさないからです。名取氏が
と表現しているのはこの事を示します。
ここでのポイントは、陽性になった人にとっては、上記のような事情などあまり関係が無い所です。つまり、全体を見れば良い情報をもたらさない検査であっても、保有かつ陽性(正陽性・真陽性)となった人は、自分が病気を発見され、処理などにより命を救われたと感ぜられるでしょう。これは、検査は有用なものであるとの印象を強化します。そして、検査の実施主体が検査性能について正直な発表をしないままはぐらかせば、このような印象は広く口コミ等で広がり、流行につながります。この意味で、正直者のほうが損をするという社会的な構造です。
ここで重要な話。
いまは検診の議論です。検診とは、
症状を呈していない病気を発見して対応に繋げる
という一連のプロセス、流れを示します。単なるがん検査の話ではありません。ですから、症状が出て医療機関にかかった場合の検査の議論では無い、という所に注意を要します。これは最重要の論点です。
これは、陽性者に占める、がん保有者の実際の割合が5.4%であるとの仮定を示します。世の中に完全な検査など無いので、ほんとうの保有割合は知りようがありませんが、これまでに蓄積された知見を援用して、取り敢えずこのくらいの数値にしておこうという、あくまで仮想的な数値です。保有割合を5.4%に設定して図示します。
だいぶ縦仕切りが左に寄りました。名取氏は、
このように指摘します。図も見ましょう。
保有割合は何度も説明しました。人口に占める保有者の割合です。単純ですね。
いっぽう、陽性適中度は、
陽性者に占める保有者の割合
です。既に出た感度と特異度は、縦仕切りで分かたれた左右それぞれを全体とした割合でしたが、対して適中度は、左右にまたがった部分を全体とした割合です。
陽性適中度の場合、左上の薄赤マスと右上の薄赤マスを合わせたのを分母として、左上の薄赤マスを分子とした指標です。要するに、
陽性と判定した時の当たった度合い
を表現しているのです。名取氏は、この度合い(割合)と保有割合が同じだと指摘し、それは無意味な検査だから、としています。何故か。
いまは、検診の内の最初の検査で、それは次の精密検査に繋げるための、プロセス中の最初の段階を示します(1次検査や1次検診と言う)。検診は、1次検診によって陽性者をふるい分け、その陽性者を
新しい人口
として、更に精密検査を実施して、保有者を確定していきます。という事は、
新しい人口における保有割合を上げる
のが、1次検診の意義です。要するに、保有割合が小さい集団をふるい分け、より保有割合が高い集団に再構成してから次の検査をおこなうわけです。ですから、陽性者における保有者の割合、すなわち陽性適中度は、
新しい人口における保有割合
と解釈できます。割合を確率とみなし、陽性適中度を
事後(検査後)確率
と表現する所以です。※陰性適中度もあるので、正確には事後の保有確率
しかるに、先ほどの仮定での検査では、保有割合 = 陽性適中度でした。これは、
1次検診をおこなったのに、新しい人口での保有割合が変わらない
のを示します。だからその1次検診(に用いた検査)が、無意味なものだとみなされたのです。
一般的な検査では、縦仕切りの左右における陽性者の割合、つまり横仕切りの高さは異なります。検査を受ける人のいかなる生理的等の状態も無視して、サイコロを振るがごとく一定の確率で陽性陰性を出現させるような事はあり得ないからです。そして、あり得ないような設定をし、世間で怪しい検査を実施する者の謳い文句のおかしさを炙り出すのが、名取氏の仮定なのでした。
横仕切りは2本あります。保有者と非保有者で陽性の現れかたが異なるのは普通です(もちろん陰性も)。もしこの現れかたが同じであるなら、横仕切り2本の高さは同じになる、つまり1本の線分のように見えます。これは単純に、検査によって人口を水平に切り落とすような操作をするだけですから、検査後の保有割合は、検査前と全く同じとなるのです。
最初のほうで、
このように仄めかしたのは、いま説明したメカニズムが裏側にあったからです。
“陽性的中率は、感度や特異度だけではなく、有病割合にも影響を受ける” のは、疫学や公衆衛生学の教科書でしばしば強調される所です。勉強し初めでは良く理解できない部分だからです。図解しましょう。
適中度、いまは陽性適中度ですが、この指標が、感度と特異度に影響を受ける、というのは解りやすいでしょう。横仕切り2本の位置が変化すれば、分子と分母の状態を変化させるのが想像しやすいからです。
しかし、適中度に強い影響を与えるのは、名取氏も書いているように、保有割合です。上図では、感度が85%で特異度は95%、保有割合は半分の50%、陽性適中度はその結果で94.4%です。しかしです。保有割合は、理想的には、ある時点における、人口に占める保有者の割合です。つまり、病気を対象とするならば、静的な状態として半分の人が病気を持っているのを示します。このような状態は、頻繁にはありません。たとえば、高齢者における高血圧症のように、加齢により罹る人が増え続け、かつ治る事が無いような慢性疾患のような場合です。
いまは、がん検診の話です。検診は、その病気を持たないという意味での健康者に実施されます。ですから、がんに罹っている人が半分であるような無症状者の集団に検診を実施するなどという事は起こりません。
試しに、がんとしてはものすごく大きく設定し、先ほどと感度特異度を変えず、保有割合を10%にしてみましょうか。
適中度が、94%から65%に下がりました。先述のように、陽性適中度は、左右の陽性にまたがって算出される指標です。そして、保有割合が下がると、縦仕切りが左に寄るため、左の横仕切りを下げていって感度を上げても、縦仕切り右側の人口が大きいために、右の横仕切りのほうが影響が強くなります。
保有割合はこのままで、今度は右の横仕切りを少し下げ、特異度を90%にします。
適中度が、65%から48%に下がりました。特異度は5しか減らしていません。それだけしか減らさなくても、右側、つまり非保有者の人口が大きいので、右の陽性者がすぐに大きくなるしくみです。
では、感度を99.9%にしましょう。こんな検査は現実にはそうそうありません。
適中度は、52%にしか上がりません。いかに右側の影響が強いかが判ります。
いまは、保有割合を10%にしています。これは、がんの保有割合としては高すぎる数値です。名取氏の仮定でも5.4%としています。これも、色々の種類のがんを網羅的に把握するとしたら、との仮定です。更に言うと、一般にこのような検査指標は、静的な状態を仮定して算出します。ここでの保有割合を時点保有割合とも表現するのはそういう理由です。しかし実際には、時点で世界を切断して全体に完璧な検査をおこなうのは不可能です。一定期間の検査結果を集積して指標を計算し、あたかも静的な状態のように仮定して設定します。ですから、実現象とは必ず相違が生じます。知見を総動員して仮定を重ね、このくらいだろうとの数値を置くのです。
名取氏の仮定では、種々のがん保有割合は5.4%です。であれば、固有のがんに着目すれば、保有割合は更に小さくなります。人口統計において、一定期間でのがん発見者の割合を示す場合に、1,000人中や10,000人、100,000人中という割合で表現するのは、がんの保有割合はそれだけ小さいからです。
試しに、感度95%、特異度99%という、かなり優秀そうな検査を仮定して、保有割合を
5%
3%
1%
0.1%
として、陽性適中度を算出してみます。
5%→83.3%
3%→74.6%
1%→48.9%
0.1%→8.6%
興味深いですね。改めて書くとこれは、感度95%、特異度99%という、実際にはほぼ無いような性能の検査を仮定しています。また、時点での割合で言えば、健康者におけるがん保有者が0.1%付近というのは、がんの種類によっては充分にあり得ます。検査の感度や特異度は、その算出が容易で無い事もあり、報告にもばらつきがあります。ですから、
どのような集団に
どのような検査をおこなうか
を共有して議論を進めるのが重要です。ここまで見たように、保有割合は適中度に対し強い影響を及ぼすので、悪い意味で巧みな論者は、知ってか知らずかこのあたりの論理を利用し、
保有割合の異なる集団への検査を区別せず
議論を混乱させ、その上で数値を宣伝に使うので、謳い文句の類を検討するに注意が必要なのです。
実は、がん検診の議論では、ここが最も重要な所です。これを蔑ろにする主張を鵜呑みにしてはなりません。
がん検診は一般に健康者におこない、無症状者対象なので、保有割合はどうしても小さくなります。数%と見積もるのも大きいかも知れません。これはつまり、
いかに検査性能を高めようが、陽性適中度を上げようが無い
のを示唆します。先ほど、高性能の検査を仮定しても、保有割合が0.1%なら、適中度は8.6%になるのを示しました。このような集団が対象であれば、感度が85%になると、適中度は0.8%まで下がります。陽性者1,000人の内、がんに罹っている人は8人です。日常的な感覚からすればこれは、当たる度合いとして異常に小さい割合です。
名取氏の記事でも、“既存のがん検診も、陽性的中率は数%程度” とあります。これはプロセス指標と言って、実際におこなわれた検診から算出した指標であり、目標値も設定されています。
がん検診の都道府県別プロセス指標:[国立がん研究センター がん統計]
ですから、適中度のような指標を、
日常的に低く感ずるからそれは実用的で無い
などと評価すべきではありません。重要なのは、検診全体のプロセスの最終結果で何をもたらすかです。がん検診におけるその最重要の指標は死亡率の減少、つまり、そのがんで死亡する人が、検診をする場合としない場合とで違いを生ぜしめるか、を見るべきなのです。それが得られるのならば、
数百から数千分の1の保有割合を、数十分の1の割合に変化させる
検査は有用なものとなり得るのです。更に見かたを変えれば、
日常的に高く感ずるからそれは実用的である
と即断してもいけません。もし、適中度が数十%にもなる検査法があるとしても、それが良い処置に繋がり、更に寿命を延ばすなどの効果をもたらさなければ、検診において有用な検査とは評価できないからです。