論文の読み方：救急搬送における診断予測モデルの研究を読む③

2023年10月6日 21:07

対象論文：Lindskow et al. Prehospital Early Warning Scores to Predict Mortality in Patients Using Ambulances. JAMA Netw Open. 2023;6(8):e2328128.

前回までの記事は下記です。

INTRODUCTION

多くの臨床研究分野の論文のイントロダクションは三段落構成です（四段落のこともある）。

一段落目はこれまでの経緯やなぜ大事か
二段落目はknowledge gap
三段落目に研究目的と仮説

です。この論文はの第一段落は、なぜEWSと呼ばれるスコアリングシステムが大事かを述べています。ここに十分な知識があるなら読まなくてもなんとなく分かりますし、知識がないならDeepLにでも突っ込めは分かります。

問題は二段落目にあるknowledge gapの部分です。どの論文でもやはりここが大事で、ここがスッキリおさまるならそれでいいですし、そうでないなら論文としてイマイチ。第二段落を読むと、すでにこの領域のシステマティックレビューがあり、17の研究15万症例の論文が出ています。ではknowledge gapは何か？

However, for EWSs to be useful for paramedics in daily clinical practice, studies examining the predictive value of EWSs in large patient cohorts covering unselected patients using EMS are needed.

JAMA Netw Open. 2023;6(8):e2328128

つまり、使う患者使わない患者を選ぶのではなく、どの患者にも応用した場合の評価が必要と。個人的には心肺停止患者に使う理由はないし、そうかなあ？という気持ちもあります。なんとなく、直感的にはデータがあってnがあるからやった印象。あまり偏見は良くないので、ちょっと引っかかりを覚えつつそのまま読みます。目的は割と明確に記されています。

目的はEWSを全搬送患者に対して用いて、その性能と妥当性を検証すること。

ちなみにすごいdisってばかりのように見えますが、この論文は非常に読みやすいです。構成がしっかりしているからこそ批判しやすいのであって、本当にひどい論文は何から突っ込んでいいのか分かりません。

METHODS

1. Study design

最初にPrognostic studyと明記されていて、個人的には好感が持てます（偉そう）。というのも、予測の研究だからprognostic studyが正しい表現なんですが、retrospective cohort studyとかobservational studyとか曖昧な表現に逃げず、ちゃんと予測の研究だよ、と述べるのは大事です。そして予測の研究なのでTRIPOD guidelinesに従って記載したと書いてあります。ちなみにこの論文はどこがどう従っているかの情報をsupplementalに掲載していません。ただ、ここまで読んだ感じだとちゃんと書いてあると思います。

ちなみにreporting guidelinesは「どうせここまで見ないだろ」的な感じなのかもしれませんが、査読をしていて「なんだかイマイチだなあ..」と思ったら、reporting guidelinesに従ったと書いてあるのに全然従っていないなんてことも。当然即rejectです。それ以上読むのも時間の無駄ですし。

全部従う必要はないですが、ある程度経験があれば書いてある書いてないはすぐ分かるので嘘を書くのはやめましょう。

2. Study setting

この研究は北デンマーク地方、約55万人の地域で、人口の10分の1だそうです。日本で言うと東北地方全体みたいな感じですが、代表性（representativeness）があるかと言われるとどうでしょうか。まあ許容してもいいのかなと思います。代表性がないと「それはその施設の話でしょ」、つまり想定している母集団の代表ではないから一般化できないとよく言われるやつです（この辺の話は深く入ると大変なので一般的な解釈として）。

次に気になるのは、救急搬送全部が本当にレジストリとして登録されているかどうか。いつも言ってるのですが、データがどうやって発生して、どうやって入力して、どうやって収集しているのかが分からないと、そこでシステマティックエラーが生じてしまうことがあり、結果の解釈ができなくなります。

デンマークは119ではなく112、重症以外は開業医に連絡し、必要時はそこから救急要請があるようです。

読んでて驚いたのが、下記の部分。

すべての救急車は、患者データとバイタルサインの測定値を含む、同じ病院前電子カルテを使用しており、自動的に測定されたバイタルサインは、救急車内のモニターからカルテに転送され、データは中央サーバーに保存される。

JAMA Netw Open. 2023;6(8):e2328128

え、すごくないですか？
TXP社がやってる取り組みがすでに国全体に入っているとは…。

バイタルサインは臨床的に適切な場合に測定され（例：感染症が疑われる場合の体温測定）、バイタルサインの登録よりも患者の急性期治療が優先される。と書いてあるので、測定されてない項目がそれなりにありそうです。ここは欠測がどの程度あるのかを知りたい。でもここに欠測があるからといって、鬼の首を取ったように論うのはあまり建設的ではないです。どう頑張っても取得できない情報でもあり、ここを論点にしたら（少なくとも現時点では）どうしようもないからです。

ちょっと勉強したくらいの先生がこの辺りを踏まえずに、欠測が多いからダメ！ということもありますが、本当にダメなのか何故ダメなのか、どうダメなのか？代案はどうすれば良いのかを考えるとすごく勉強になると思います。

3. Participants

Design, Setting/Datasourceときたら参加者、participantsです。2016年7月から2020年12月までに北デンマーク地域の救急車サービスを利用した18歳以上の患者を対象としています。やはり小児は除外したいですよね。バイタルサインの基準も違いますから。

それから、デンマークの市民登録番号を持たない患者（274,042人中17,092人［6.2％］）、医療記録が複数の人にリンクしている患者、死亡時刻が記録作成日以前に登録されている患者、バイタルサインが記録されていない患者、病院到着時に死亡に関する診断を受けた患者は除外されています。

何度も繰り返しますが、個人的には心停止症例は全部除外した方がいいのでは？と思いました。Study conceptが「全患者」なのでそういう意味では除外できないのですが、だって心停止患者ですよ？EWS使うまでもなくないですか？これを入れるとアウトカムが不良かつそれなりに患者がいるので多分スコアがよく出るんですよね。一般には曖昧な症例が多いほど、明確に分けられないのでスコアは悪く出ます。

4. Measurements

バイタルサインが救急隊によって記録され、自動で転送されるので、あまり何も言いようがないです。しかも接触後10分以内と定義されていて、これは素晴らしいと思います。データは、誰が、いつ、どうやって取得したかが非常に大事だから。ただ、呼吸数の測定方法をどうしてるかは気になりますが詳細はありませんでした。多分。

5. Missing data

ちょっと気になったのはここ。先ほど説明した通り、欠測が出るのは仕方ないが、それをどうやって処理したのか。本文には"If any parameter was missing, it was imputed as normal, or within the score’s nonpathological or zero-scoring range."とありますが、validationで補完するのは微妙。要は取得していないということは問題ないということだから正常範囲内の値で補完したよ、と。とはいえ欠測は仕方ない。CPAの欠測はどうしたんですかね。ほとんど欠測してるから除外に含まれるのかもしれません。

それから感度解析として"As secondary analyses, we used last measured vital signs and the worst (ie, most severe) obtained score during the entire ambulance run (forward imputation)."とありますが、個人的にはこっちの方が好き。だってそんなに極端にバイタルが変化することは多くないし、病態を反映してそうだから。

6. Outcome

主要アウトカムは30日死亡率、副次的アウトカムは1日死亡率とICU入室。副次的転帰は個々のエピソードについて検討し、30日死亡の転帰については、エピソードが30日の追跡期間後に発生した場合は30日打ち切りとあります。

前回も述べましたが、30日死亡率でいいの？という感じはします。最初のバイタルサインが30日後の死亡率と強く関連すると言われても、それ以上にその後の経過の影響の方が大きくない？と思ってしまう。もちろん重症度を表すけど、3日とか7日の方がより適切じゃないのかなというのが率直なところ。

ただ30日死亡があるって凄いことです。院外死亡も拾えると言う事なので。

7. Statistical analysis

ほとんど読んでいません笑

と言うのも、この研究は予測モデルを作るわけではなく、既存のスコアの検証をするだけなので、感度特異度やAUROC、calibration plotなどを用いて示されるというのがわかっているので。

論文を読む上でハードルになるのがこのstatsセクションですが、因果推論の時はかなり知識がないときついです。ただ予測モデルに関しては正直そこまで拘っても…という気持ちがなくもない。モデル作成の時は細かく見ますが、それより外的検証の方が大事ですし（検証されていないモデルの研究は最近は通らない）。

と言うわけでMethodsまで読みました。
次回は結果・考察までやってまとめたいと思います。