論文の読み方：救急搬送における診断予測モデルの研究を読む④

2023年10月7日 22:37

長かった論文の読み方シリーズも最後です。
ここまでの話は下記から。

RESULTS

Study flowを見ると一割程度、バイタルサインが欠測してます。
あと一人平均二回搬送されてます。これが色々な研究で問題になるのがpatient-levelとvisit/hospitalization-levelのどっちを使うのか問題。

Patient-level：患者さんレベル
Visit-level：受診レベル。一人が5回受診したら5人分になる。

患者さんレベルだと107569人なので、初回の搬送のみ使うなどの工夫が必要だし、一方visit-levelだと複数回搬送される患者の重みが大きくなります。どちらが良いかは研究テーマ次第。

この研究だと、ある個人が救急搬送5回されたとしても、病態はそれぞれなので5回分と数えることに問題はあまりないし、実際のシチュエーションを考えると妥当なように思います。

そしてメインの結果。やはりなんだかんだ言ってもまずはAUROCを見たいですよね。まずは何を言っても識別性能（discrimination ability）がどうかが大事。それから使用目的に応じたカットオフがどこにあって、そこに対する感度特異度はどうか。そして較正（calibration）を見ています。NRI/IRIやnet benefitなどの指標もありますが、やはり直感的かと言われると…いや大事なんですけども…僕も論文で書いたし。予測モデルって、用途がそれぞれで異なったりするので、文脈に沿った指標を使う必要があるんですよね。とりあえず全部載せでもいいですが。

予想通り、どれも大差なさそう。精度もイマイチ。でもAUROCが0.9とか言われもそれは嘘くさいというかありえないので、納得。

eTable 2に欠測の詳細があるんですが、体温が一番欠測あるのは意外。日本人は体温測定好き？なのか、これまでの研究の感じだと欠測少ないと思います。

ちなみにeTable 5とかを見るとカラフルで綺麗なんですが、今ひとつメッセージ性が伝わりにくい。

DISCUSSION

知ってる領域なら僕はあまり読まないこともあります。
結果が妥当なら尚更ですが、筆者がどう考えているのかが気になる時は読みます。この研究の場合、自分だったらそんなに書くことはない気がなんとなくしますが、実際結構短いです。

Discussionでは
1. 結果の要約
2. 過去の研究との比較
3. 結果のメカニズム
4. 強みと結果が示すもの（implication）
5. 研究限界
を書きます。

第一段落目は結果の要約です。大抵、Abstractのconclusion、Discussionの第一段落、それから本文のconclusionsは同じ内容が書かれています。ここで一貫性があるかは、なんとなくチェックしていることが多いです。一貫していない論文はSPINのリスク大です（ここに来るまで中身を読んでるのですぐに分かりますが）。

https://twitter.com/Shuntarooo3/status/1559460702150017024

Spinとは、不適切な論文記載方法です。
例えば、主要評価項目で有意差が得られなかった時に、他の有意差が得られた項目に焦点を当てた書き方をするようなことです。

JAMAのこの論文は初期の代表的な研究です。研究対象期間は短いですが、Spinの種類を細かく評価しています。https://t.co/htAP3wTVMB
— Sato Shuntaro｜佐藤俊太朗 (@Shuntarooo3) August 16, 2022

次に過去の研究との比較部分ですが、スウェーデンで開発されたRETTSと、スウェーデンのスコアをもとにデンマークで開発されたDEPTが、最も良好な結果を示したと書いてあります。個人的にはそんなに大きな差かなあ？というのが直感で、その差がどれくらいかは見えにくい程度の識別性能。もちろん手計算で色々数字を出しても良いけど、毎回それすると多分論文読むのしんどいし、僕はやらない。論文読んでしんどくなってはいけません。

あとは使いやすさとの兼ね合いですよね。あとはどのスコアがオーバートリアージ・アンダートリアージが多いかは知っておきたいという気持ちはちょっとあります。

それからstrength、すなわち研究の強みです。BMJとかだと最初に書けとかありますが、あまり明記されていないですね。

最後にimplication、すなわち結果からどんなことが示され、考えられるか。ここは、言い過ぎない程度にこの研究の価値を伝えるところです。ただこの論文ではここもあまり示されていないように思います。「既存のスコアを検証することは意思決定に役立つが、特定のターゲットを持つより微妙なスコアを開発することで、より優れた分類が可能になるかもしれない」といった控え目な結果だけ論じていますが、そもそも他者が作ったモデルを検証しただけなので、それはそうかもしれません。

LIMITATIONS

個人的に必ず読みたいのは研究限界。ここは絶対に読みましょう。本文に書いてある研究限界として、

市民登録番号（マイナンバー）の欠落でコホート全体の6％の患者が除外され、バイアスのリスクが生じている。このバイアスはランダムではないと考えられる。
測定値の欠落。測定値の欠落は、救急隊員が診断的な測定ではなく、蘇生や生命維持のためのケアに集中したためかもしれない。
できるだけ多くの患者を対象としたが、選択バイアスのリスクも伴う。しかし、バイタルパラメータがほとんどない患者を除外するという選択も、欠測の程度による転帰率の違いから、選択バイアスが生じる。欠測データを考慮した分析では、より完全なデータほどAUROCとAUPRCの値が高いことが示されたが、これは欠損データが常に正常とは考えられないことを示唆している。事実、バイタルデータの欠落の程度が高いことが死亡率の上昇と関連していた。

とあります。Limitationを読むと、どのような点に注目しないといけないかよく分かるし、自分の研究にも活かせます。また、特に観察研究においては研究者のレベルが結構出てくる部分でもあります。

Limitationや論文抄読会では内的妥当性（選択バイアス、情報バイアス、交絡）、外的妥当性に関して記載あるいは発表することが多いかもしれません。ただ、これは予測の研究や記述研究だと当てはまらない項目もあるので、時に理解が追いつかないこともあるかと思います。事実、この論文では交絡の話は出てこないですよね、これが当然だということが分かるかどうかがとても大事です。

詳しくはこの本で！笑

CONCLUSIONS

最後に結論です。
一番気をつけたいのはSPIN。
あとは流派によりますが、メッセージやimplicationをここに書く派と、シンプルにメインの結果だけを書く派があります。本論文では最後に、

Our next step is to investigate whether machine-learning methods may be associated with improved prediction and accuracy.

https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2808120

とあって、明確でいいなと思いました。つまりMLの論文がこれから出てくるわけですね笑。これもすでに多数あるのでどうなるのでしょうか。

OTHERS

それからfundingやCOIなどにさらりと目を通します。医療機器・薬剤系の研究だとここは特に見ますが、実際はお金もらってなくてもacademic COIがあるとか、表立った金銭授受はなくてもめちゃめちゃ昵懇とかあるけど出していないとかあるので、開示している方がマシかもしれないとすら思います笑。

昔、ある雑誌に論文を出したらeditorから「この論文の共著者はCOIあるだろ、ちゃんと全員分確認して提出しろ」と言われて驚いたことがあります。もちろん共著者には事前にCOIのことを確認して出していたのですが。。

ただ、意識的にせよ、無意識的にせよ、繋がりがあれば必ずそういう方向に結果が動きやすくなるというのはしっかりと心に留めておく必要があります。このような研究ではあまり影響しないと思うのですが、例えば著者の誰かが検証したスコアの論文開発者だったら、もしかしたら…はあるかもしれないですよね。

論文を読み終えて

当初の期待値通りの論文だったかと思います。これを見て、明日からRETTSを使おう！って人は多分そういないし、救急隊がRETTSを用いるということもまずないでしょう。ただ、妥当性検証としての論文の質は高いし、とても読みやすい論文でした。

『プレホスピタルでトリアージするのに良いスコアないですかね？』という質問には答えられる論文なように思います。バイタルサインは地域性や人種差がほぼないですから、外的妥当性（or transportability）も高いのではないでしょうか。

明日からの診療を変えるかどうか、という問いかけに対して一つの論文で答えるのは無理です。これまでの知見や数々の研究結果の上に目の前の論文というピースがあるだけですし、経験者はそれがあるから目の前の論文を判断できるということを忘れてはいけません。例えばNEJMでRCTがpositiveだったから、明日からそれやろう！っていうのも時期尚早なことがほとんどだと思います。