おい、DCAってなんなんだ?
今回は予測モデルの臨床的有用性を評価するためのDecision curve analysis:DCA(決定曲線分析)について勉強しました。DCAってちょいちょい使われているので要チェックだと思います。
医療分野では診断や予測を目的として、多変量回帰モデルが用いられてきました。その妥当性については、感度や特異度などの精度評価指標が用いられています。モデルの予測精度を比較するには十分なのですが、臨床的な有用性は?と聞かれると・・・???。そこで、DCAが登場しました。
2006年に発表されたDCAは、「計算方法は単純だが、理解するのは少し難しい」というデレツンな評価方法です。これまで医療分野ではあまり見ない、純利益(net benefit)と閾値確率という概念が出てくるからだと思いました。計算が単純なだけにとりあえずやってみようができてしまうので、訳もわからず、意味を誤解したりするのは怖いなと思ったので備忘録としてまとめました。
Decision curve analysis: a technical noteのまとめ
ざっとDecision curve analysis: a technical noteの内容をまとめてみました。このレポートをみれば、方法は理解できると思います。ただ、コンセプトのところが難解なので、『決定曲線分析とは』のところで少し解釈を加えながら、再度まとめたいと思います。
Summary
多変量回帰モデルの妥当性は、感度や特異度などの診断性能の指標を用いて評価されてきたが,特定のモデルの臨床的有用性を考慮していなかった。この有用性を測定するために広く用いられているのが決定曲線分析(DCA)である。この枠組みでは、予測モデルに関連したベネフィット(真の陽性症例を治療すること)とハザード(偽陽性症例を治療すること)の相対的な価値を臨床的に判断する。
DCAのキーコンセプトは“threshold probability: pt, is where the expected benefit of treatment is equal to the expected benefit of avoiding treatment.”のように定義された閾値確率(Pt)と呼ばれる概念である。Ptは治療と治療を避けることの期待される利益が等しい確率であり、Ptは個人や政策立案者の選好(preference)を反映する。
このPtを変化させて純利益(net benefit)について計算し、モデルを比較することができる。
・・・ということです。
Concept of net benefit
$$
net\;benefit\;treated = \frac{TP}{n}-\frac{FP}{n}(\frac{P_t}{1-P_t})
$$
↑ TP=真陽性数、FP=偽陽性数、n=個体数、Pt=閾値確率
このように治療を受けた患者のnet benefitはPtの関数として表現できます。モデルの比較には、選択した閾値確率(Pt)において、あるモデルの純利益が他のモデルの純利益よりも高い場合、そのモデルが優れていると見なされます。
また、極端な戦略として以下の2つを比較します:
全ての患者を治療する戦略:この場合、$${\frac{TP}{n}=π}$$(疾患の有病率)および$${\frac{FP}{n}=1-π}$$となります。π(有病率)は$${π=\frac{(TP + FN)}{n}}$$ によって計算されます。
患者を一切治療しない戦略:この場合、TP=0 および FP=0 となり、閾値確率に関係なく純利益は0となります。
これらの戦略の純利益を比較することで、指定された閾値確率での疾患の予測または診断においてどのモデルが優れているかが判断することができます。
同様に、治療を受けない時のnet benefitもPtの関数として以下のように定義できます。
$$
net\;benefit\;untreated = \frac{TN}{n}-\frac{FN}{n}(\frac{P_t}{1-P_t})
$$
↑ TN=真陰性数、FN=偽陰性数、n=個体数、Pt=閾値確率
式の展開を省略しましたが、Prevalence(有病率)=Ptの時にnet benefit=0になります。
$$
\frac{net\;benefit\;treated-net\;benefit\;treated(all)}{(\frac{p_t}{1-p_t})}=net\;benefit\;untreated
$$
↑ net benefit treated(all)=全て処置を行なったときのnet benefit
$$
net\;benefit\;overall = net\;benefit\;treated+net\;benefit\;untreated
$$
↑ net benefit overall = 全体のnet benefit
$$
ADAPT=\frac{1}{N}\times\sum_{i=1}^{N}|p_i-p_t|
$$
↑ おまけ。LeeとWuにより提案された予測モデルの効用を決定するための平均確率閾値に関する偏差指数(ADAPT)。
モデルが校正されている場合($${P_i}$$が本当に陽性である確率に対応している場合)、以下のような関係になるそうです。
$$
ADAPT = (1–p_t)\times net\;benefit\;treated+p_t\times net\;benefit\;untreated
$$
ちょっとよくわからなかったので、飛ばします。
決定曲線分析とは
一応上の説明をざっと読んでいただけるとDCAの計算ができて、予測モデル間の比較はできるようになっているかと思います。
サンプルデータでやった感じだと、こんなグラフになります。
このグラフから、以下のことがわかります。
1. all(全ての対象者を検査する)のNet benefitはpred.simpleモデルおよびpred.fullモデルよりも低い
2. pred.simpleモデルと比較して、pred.fullモデルを使用した方がnet benefitが高い
つまり、全件検査するよりもモデルを用いた方が有用で、さらにpred.fullモデルの方が有用であると主張することができます。
ただ、解釈というか理解できているかと言われると怪しいので・・・できるだけ具体的に咀嚼した内容を以下にまとめたいと思います。この文献を参考にしていますが、かなり解釈が入っていますので変なとこがあればコメントください。
で、早速わかりにくいポイントなのですが・・・私の納得感が爆上がりしたという理由で下記の2項目についてのみまとめます。つまり、グラフのY軸とX軸の説明をします。その他の不明点については論文読んでください。
具体的な例を考えてみます。
がんの予測確率を出すモデルがあるとします。このモデルを使用して、検査をするかどうかの判断に迫られているとします。
この検査は身体的な負担があるようなものなので、できるだけ不必要な検査はしたくないという前提です。
1. net benefitってのがいまひとつピンとこないのですが?
そもそもって感じで、わからないですよね。net benefit(純利益)っていう指標。net benefit ≒ net profitと同じ考え方で、収入から支出を差し引いたものです。診断の場合、収入は真陽性(例:がんの発見)、支出は偽陽性(例:不必要な検査)のことだと思ってください。単純に収入-支出ではなく、ここに為替レートがかかってくるイメージです。つまり、収入-支出×為替レート。この為替レートが意思決定者の選好(preference)を反映させたものです。この為替レートは後述する閾値確率から計算されます。
んーわかったようなわからんようなですかね。
自分はこの説明で腑に落ちました。
2. 閾値確率って何?
モデルが1%の確率で陽性であると判断した場合には、ほとんどのケースで検査は見送られると思います。これを2%では?3%では?と変化させていき、判断が不明確になる確率が閾値確率です。仮にリスクが10 %の場合は、オッズ(=Aが起こる確率/Aが起こらない確率)は1:9なので「がんを見逃すことは、不必要な検査を行うことよりも9倍悪い」という意味になります。そして、これを選択するかどうかというのがpreferenceです。このpreferenceは個人の価値観や治療効率、検査の負担度なんかによって左右されるの個別ケースで異なります。なので、この閾値確率を段階的に変化させnet benefitを算出するとモデルの有用性が比較できるという塩梅です。
まとめ
クライアント(意思決定者)が予測モデルをサービス運用するための判断基準の一つに、現在稼働している運用と比較して優れているのか?という点が挙げられると思います。もちろん予測モデル作成前にDSがモデル精度評価指標としてプロジェクト定義書にまとめていると思います。ただ、それだけでは不十分ではないかと思います。クライアント側に納得してもらうような資料が必要なんじゃないかと。モデルの精度を提示するだけでは不十分で、だからどうなるまでを示さないと意思決定者は判断できません。説明する際に数値だけでなく、背景や意味なんかをできるだけわかりやすく、具体的に説明する必要があると考えています。
そんなことから、DCAのようなわかりやすい指標が役立つと思いました。ただし、一見わかりやすそうだが、しっかり説明できるか?みたいな問題にぶち当たったので、今一度まとめ直す必要があるなと思い立ちました。
なので!!ものすごくニッチですが、これからも何か説明が必要なものができてた時は、わかりやすい資料としてnoteをまとめていきたいと思います。ここから、発表資料作った方が数百倍はやい。同じ境遇の皆さんの助けになれば嬉しいです。