論文の読み方:救急搬送における診断予測モデルの研究を読む②
前回の記事の続きです。
アブストラクト
とりあえずここまでで前回示した読みたい情報の部分が結構出てきました。まずtargetは北デンマーク地域住民の救急搬送症例(おそらく全て)の成人です。小児と成人は正常バイタルやトリアージ区分が違うため、現状分けるべきと思うので18歳以上というのも大事です。
そして非選択的患者(non-selective patients)ということは、年齢以外の患者条件で絞らず全ての患者を対象にしたのでしょう。つまり「この患者には使える、この患者には使えない」とするのではなく、全ての患者に使えるようにしたいというニュアンスが汲み取れます。研究期間も直近ですね。
そして「現場で最初に救急隊員が測定したバイタルサイン」という情報が出てきました。これは非常に大事です。予測の研究においては『誰が、いつ、どのように定義した、どの情報を取得して、いつ用いるか』が大事なので、その情報が少しクリアになりました。救急隊が使うことが前提なので救急隊が取得したバイタルサインでないと行けません。まあ誰が測っても同じというなら別にいいのですが…。一方で忙しい現場で測定に時間のかかる呼吸数などはどうしたのかは気になるところ。
評価するスコアは有名なEWSsなので、北デンマークでどのスコアがいいか調べようという流れでしょう。アウトカムは死亡(いつの?)と集中治療室入室なので、もう少し詳細を知りたいです。
主要アウトカムが30日死亡ですが、これが妥当かどうかは結構微妙なところだと個人的には思いました。元々のNEWSは院内死亡がアウトカムですし、過去の研究も24時間死亡や院内死亡、あるいは7日間死亡を用いています。救急搬送時点の情報がその後30日間のアウトカムに影響を与えるかというと正直悩ましい。ただ、PLOS ONEのSRでも30日死亡を用いてはいるので、それに準じたとするならそれもありかもしれないので、本文で確認したいところですね。
そしてメインの結果ですが、一患者平均2回ほど救急搬送されています。これは臨床的にも妥当な感じがします。研究によっては複数回搬送患者の影響が大きくなるので期間内のfirst episodeだけを用いることもありますが、今回は全部を使う方が目的と合っていると思います。
そしてdiscrimination abilityはいずれも中程度で、Area Under the Precision-Recall Curve (AUPRC)は低いという結果です。AUPRCに言及があるのは医学研究ではやや珍しいかもしれません。AUPRCはclass imbalanceと呼ばれる「アウトカム発生率が低い」場合に用いられるとされる指標です。例えば死亡率が50%ならclass imbalanceはありませんが5%だとclass imbalanceと呼ばれる状態です。この時、AUROCはあまり評価に適さず、AUPRCを評価すべきという意見があります。
上記NPJ Digit Medの論文の図表から引用したのが下記になりますが、確かにprevalenceが下がってもAUROCは保たれている一方AUPRCは鋭敏です。
ただ、AUPRCはどちらかというと機械学習からの文脈で用いられる指標である印象で、臨床研究におけるlow mortalityなどに対して用いるとAUPRCが異常に低い数字を叩き出してしまい、それはそれで微妙な結果になることが多いです。あとはAUPRCがほとんど使われてないので、直感的に分かりにくいのも欠点。勉強会では、機械学習エンジニアがAUPRCを出してきて、「AUPRCが低いから無駄」みたいな話になると結構拗れるという話をR先生としていました。
そして最後にrelevanceですが、「これらの知見は、プレホスピタルでの使用にも適した新しく優れたEWSを用いて、適切なトリアージを行い、低リスクおよび高リスクの患者を早期に特定する必要性を示唆している。」とありますが、どうでしょうか?言ってることはもっともだし、多分自分がこの論文を書いても似たような結論になると思います。ただ、AUROCやAUPRCが高い/低いだけで論じていいのかどうか?AUROC 0.98みたいな値を目指すべきなのか?まで言っていいのかどうかと言われると微妙というのが個人的な感想です。0.70でもシンプルであれば有用なスコアはありますし、そもそもバイタルサインだけでそこまで分かるなら臨床は苦労しない。なぜ0.70では不十分なのかの根拠が薄弱なように思えます。よくAUROCが〇〇以上あれば良い、みたいな話もありますが(JAMAなどの論文にもそう書かれていますが)、一種の目安であり、研究の文脈に依存するはずです。
次回からは本文に入りたいと思います。