EDでの急性腹痛診断機械学習モデルの実力

2025年1月11日 10:50

これより優れているとのこと

使用されたMLモデルeXtreme Gradient Boosting (XGBoost)
高性能な勾配ブースティングアルゴリズム。
理由:
分類タスクでの優れた性能: 特に非線形データや複雑なパラメータ間の相互作用を扱う際に有効。
欠損値への対応: XGBoostはデフォルトで欠損値処理機能を備えており、日常の臨床データにも適合。
計算効率が高い: 大規模データでも高速に動作。

開発された2種類のモデルHIVEモデル:
入力データ: 初診情報、病歴、バイタルサイン、身体所見。
目的: 検査結果なしで虫垂炎を予測。
HIVE-LABモデル:
入力データ: 初診情報、病歴、バイタルサイン、身体所見に加え、検査データを含む。
目的: 検査データを加えることで予測精度をさらに向上させるかを検証。

モデルのハイパーパラメータ調整Optunaを使用してベイズ最適化を実施。
100回のトライアルを通じて、最適なハイパーパラメータ（例：学習率、木の深さ、ブースティングの反復回数）を探索。

データ処理CatBoostエンコーディング:
バイナリおよび名義データ（例: 吐き気の有無、痛みの部位）を数値データに変換。
各パラメータの統計的特性を考慮してエンコード。

パフォーマンス評価ROC-AUC（受信者動作特性曲線の下の面積）:
HIVEモデル: 0.919
HIVE-LABモデル: 0.923

これらのモデルは、XGBoostの能力を最大限活用し、臨床データ（バイタルサイン、身体所見など）を元にした虫垂炎の予測において高い精度を示した。

Schipper, Anoeska, Peter Belgers, Rory O’Connor, Kim Ellis Jie, Robin Dooijes, Joeran Sander Bosma, Steef Kurstjens, Ron Kusters, Bram van GinnekenとMatthieu Rutten. 「Machine-learning based prediction of appendicitis for patients presenting with acute abdominal pain at the emergency department」. World Journal of Emergency Surgery 19, no. 1 (2024年12月23日): 40. https://doi.org/10.1186/s13017-024-00570-7.

要約

背景

急性腹痛（AAP）は救急外来（ED）の全受診者の5～10%を占め、虫垂炎はAAPの主要な原因であり、しばしば外科的治療が必要となる。AAPの症状や原因の多様性、および虫垂炎の特定の難しさは、迅速な介入を複雑にしている。虫垂炎のリスクを推定するために、アルバラードスコアなどのスコアリングシステムが開発されているが、診断エラーや遅延が依然として一般的である。機械学習（ML）モデルが虫垂炎検出を強化するために提案されているが、EDのAAPワークフローにシームレスに統合されたモデルや、臨床意思決定プロセスの早期に虫垂炎を診断することを目的としたモデルは存在しない。本概念実証研究は、EDワークフローにおける主要な意思決定ポイントまでの包括的な臨床データを使用し、AAP患者における虫垂炎を検出するMLモデルを開発することを目的としている。

方法

オランダの教育病院EDにおいて、2016年から2023年の間にAAPで受診した患者350名のデータを遡及的に抽出した。このデータには、トリアージシステム情報、バイタルサイン、完全な病歴、身体所見、およびルーチンの検査結果が含まれている。MLモデルとしてeXtreme Gradient Boostingを使用し、身体所見までのデータを基にしたモデルと、さらに検査結果を含めたモデルの2種類を開発した。両モデルは検証セット（n=68）で評価され、アルバラードスコアリングシステムおよびED医師3名のパフォーマンスと比較した。

結果

検査結果なしのMLモデル：AUROC 0.919
検査結果を含むMLモデル：AUROC 0.923
アルバラードスコア：AUROC 0.824
ED医師（検査結果なし）：AUROC 0.894、0.826、0.791
ED医師（検査結果あり）：AUROC 0.923、0.892、0.859

結論

両MLモデルはAAP患者における虫垂炎の予測において高い精度を示し、アルバラードスコアを上回るパフォーマンスを発揮した。MLモデルはED医師のパフォーマンスと同等、またはそれを上回り、特に検査結果がない場合に顕著な性能向上を示した。このモデルの統合により、ED医師の虫垂炎の早期かつ正確な診断を支援する可能性がある。

序文

AAPの患者の背景
- 急性腹痛（AAP）は救急外来（ED）受診者の5～10%を占める。
- ED滞在時間が平均4時間以上、CT検査を受ける患者では6時間を超えることがある。
- AAPの原因は軽度なものから生命を脅かす重篤なものまで多岐にわたる。
- 虫垂炎はAAPの主要な原因で、24時間以内に症状が現れることが多いが、慢性の場合もある。
- 虫垂炎は単純（非穿孔性）と複雑（壊疽性または穿孔性）に分類される。
- 標準治療は虫垂切除だが、単純な場合は疼痛管理や抗生物質を含む保存療法が検討されることもある。
AAP診断プロセス
- 発展途上国におけるEDでのAAP診断は以下を含む：
  1. トリアージ
  2. バイタルサインの評価
  3. 病歴聴取と身体所見
  4. 検査
  5. 医療専門家の相談
  6. 画像診断
- 虫垂炎疑いの場合、診断プロセスの目的は：
  - 虫垂炎の確定または除外
  - 状態の重症度評価
診断の課題と誤診率
- 画像診断の進歩にもかかわらず、虫垂炎と他のAAP原因の鑑別は依然として課題。
- 北西ヨーロッパと米国の陰性虫垂切除率は9～10.5%。
- 虫垂炎の診断漏れ率：
  - 小児：3.8～15.0%
  - 成人：5.9～23.5%
- 誤診は穿孔率や術後合併症、入院期間の増加と関連。
診断精度向上のための方法
- 虫垂炎リスクを層別化し、診断精度を向上させる方法が開発されてきた。
- アルバラードスコア
  - 1986年に導入され、虫垂炎診断の代表的なスコアリングシステム。
  - 症状、所見、検査結果を組み合わせた点数化による評価。
  - 感度は高いが、特異度が低く、偽陽性率が高い。
- 機械学習（ML）モデル
  - アルバラードスコアより高い診断精度を示す傾向。
  - 非線形の複雑な関係やパラメータ間の相互作用を考慮できる。
  - これまでのMLモデルは主に術後の陰性虫垂切除を減らす目的で使用され、AAP全般を対象としたモデルは少ない。
  - EDのワークフローに統合され、初期診断に焦点を当てたMLモデルは未開発。
研究の目的
- EDでの初期段階における2つの重要な意思決定ポイントを対象としたMLモデルを開発：
  1. 初診情報（バイタルサイン、病歴、身体所見）に基づく評価。
  2. 検査結果を含む評価。
- MLモデルの性能をED医師とアルバラードスコアと比較。

研究方法

データ収集

2016年7月から2023年1月まで、オランダのJeroen Bosch病院で急性腹痛（AAP）を訴えて受診した350名の患者データを遡及的に収集（疑似匿名化）。
年齢、妊娠、併存疾患、薬物使用、症状の内容で除外はなし。
最初の測定データを使用し、症例ごとの初期データを基にした分析。
虫垂炎とその他のAAP原因を分類するため、クラスバランスの補正を実施。
医療履歴、身体所見、検査データが不十分（70%以上欠損）の場合は除外し、最終的に336症例を使用。

参照基準

「虫垂炎」と「その他のAAP原因」の分類基準：入院、治療内容（例：手術）、ICD-10コード。
確定診断例：167例（手術109例、保存療法58例）。
その他のAAP例：169例（EDからの即退院15例、虫垂炎の臨床的・画像的根拠がない154例）。

医療履歴と身体所見

EDレポートの自由記述データをラベル付け（367ラベル→289ラベル）。
バイナリパラメータ50個（例：吐き気の有無）と名義パラメータ23個（例：痛みの部位）に分類。
336症例に構造化データとして適用。

モデル開発

HIVEモデル: ED初期データ（医療履歴、身体所見など）を基に推定。
HIVE-LABモデル: 上記に検査結果を追加。
XGBoostアルゴリズムを使用し、10分割交差検証でモデルをチューニング。
CatBoostエンコーディングを用いてバイナリおよび名義データを数値データに変換。
モデル性能をAUROCで評価し、ハイパーパラメータ調整はOptunaで最適化。

読影研究 - 専門医評価

ED医師3名（経験年数：1年、5年、10年）が検証セット（68例）を使用し、症例ごとに虫垂炎の可能性を0～100で評価。
初期データのみの評価後、検査結果を追加した評価を実施。
モデルと医師の診断性能を比較。

アルバラードスコア

急性虫垂炎のリスク層別化に用いられる10点満点の臨床スコアリングシステム。
スコア ≤4：低リスク、≥7：高リスクでさらなる検査が必要。
検証セットに適用し、HIVEモデルやED医師との性能比較を実施。

統計解析

パラメータは中央値（IQR）または平均値（SD）として提示。
Kruskal-Wallis検定、ANOVA、カイ二乗検定などで群間比較を実施。
DeLong検定でAUROC値を比較し、有意水準はp<0.05。
AUROC値の信頼区間はブートストラップ法で計算。

結果

臨床パラメータ

虫垂炎患者は、以下の症状が他のAAP原因患者より顕著であった：
- 病歴: 右下腹部への痛みの移動、持続痛、移動時痛、体動時痛。
- 身体所見: 右下腹部の圧痛、McBurney徴候、反跳痛。
- 検査結果: CRP、白血球数、好中球数の有意な増加と、カリウム濃度の低下。

モデルの性能

HIVEモデル（A）およびHIVE-LABモデル（B）による検証対象集団における虫垂炎とその他の急性腹痛（AAP）の原因を予測する際の受信者動作特性（ROC）曲線。
モデルへの各パラメータの上位10項目の寄与度は、SHapley Additive exPlanations（SHAP）値としてスケール化され、予測への寄与度の割合としてプロットされている（C, D）。上位10項目以外のパラメータは、HIVEモデルでは合計17.5%、
HIVE-LABモデルでは合計32.5%の寄与度を占める。
HIVE: 初診情報（Intake）、病歴（medical HIstory）、バイタルサイン（Vital signs）、身体所見（physical Examination）。 HIVE-LAB: 初診情報（Intake）、病歴（medical HIstory）、バイタルサイン（Vital signs）、身体所見（physical Examination）、検査（Laboratory testing）。 AAP: 急性腹痛。 Temp: 体温（Temperature）。 MAP: 平均動脈圧（Mean Arterial Pressure）。 MH: 病歴（Medical History）。 PE: 身体所見（Physical Examination）。

HIVEモデル: 検証セットでAUROC 0.919（±0.024）。
HIVE-LABモデル: 検証セットでAUROC 0.923（±0.020）。
両モデル間に有意差は認められず。
HIVEモデルの主な寄与パラメータ（トップ10）：McBurney徴候、体温、痛みの移動、平均動脈圧（MAP）、吐き気、酸素飽和度、心拍数、痛みの部位（身体所見）、発熱（病歴）、紹介者の種類（例：プライマリケア医、自分で来院、救急車）。
HIVE-LABモデルの主な寄与パラメータ（トップ10）：McBurney徴候、好中球、カリウム濃度、体温、MAP、尿中タンパク、単球、酸素飽和度、心拍数、痛みの部位（病歴）。
検査データの追加により、重要度の再分配はあったが、AUROCに大きな改善は見られなかった。

MLモデルとED医師の診断性能の比較

初期評価（検査結果なし）
- ED医師のAUROC: 0.894（±0.076）、0.826（±0.106）、0.791（±0.117）。
- HIVEモデル（AUROC 0.919）は、医師2名より有意に高い性能を示した。
検査結果追加後の評価
- ED医師のAUROC: 0.923（±0.067）、0.892（±0.078）、0.859（±0.098）。
- HIVE-LABモデル（AUROC 0.923）は医師と同等の性能を示した。

アルバラードスコアの評価と比較

感度・特異度の閾値による評価
- スコア≤4（低リスク）: 感度88%、特異度56%。
- スコア≥7（高リスク）: 感度27%、特異度100%。
AUROCの比較
- アルバラードスコア: AUROC 0.824（±0.095）。
- HIVEモデルおよびHIVE-LABモデルの方が有意に高い性能を示した（それぞれAUROC 0.919、0.923）。
- ED医師のAUROC（検査結果あり/なし）は、アルバラードスコアと有意差がなかった。

結論

HIVEおよびHIVE-LABモデルは虫垂炎診断で高い性能を発揮し、アルバラードスコアより優れていた。
検査データの追加は、ED医師の診断性能を大きく改善しなかったが、MLモデルとの比較では同等の結果を示した。

Discussion

AAP診断の課題とMLモデルの利点

AAPは症状や潜在的な原因が多岐にわたり、誤診やED滞在時間の延長を招くことがある。
虫垂炎の誤診は診断漏れや不必要な虫垂切除（陰性切除）につながる。
本研究のMLモデルはバイタルサイン、病歴、身体所見のみを使用し、早期に虫垂炎を正確に診断可能。
検査結果の追加はモデルの診断精度に大きな影響を与えなかった。

MLモデルの臨床的意義

診断支援:
- 検査結果が遅れる場合や利用できない場合でも適用可能。
- リソース効率を最適化し、早期治療や短縮入院、コスト削減を実現。
アルバラードスコアを超える性能:
- MLモデルとED医師はアルバラードスコアよりも複雑な臨床関係を捉え、スコアの必要性を低減。
診断の標準化:
- 個々の医師の経験やバイアスによる診断のばらつきを抑制。
- 特に経験の浅い医師への有用なサポートを提供。

MLモデルと他の診断手法の比較

既存の多くのMLモデルは臨床データと検査データの両方、または検査データ単独を必要とし、ED初期診断には適さない。
本研究のHIVEモデルはED初期での適用に焦点を当て、既存モデルの欠点を克服。

HIVEモデルの適用戦略

高PPV利用:
- 虫垂炎の高確率患者を早期に特定し、迅速に画像検査や手術部門に案内可能。
高NPV利用:
- 虫垂炎の低確率患者を特定し、不要な検査や陰性切除を回避。
中間確率患者の評価:
- 診断の不確実性がある患者を注意深く評価するための指標を提供。

MLモデルの限界と改良点

データ依存性:
- 医師による正確で包括的な病歴・身体所見の記録が必要。
- 標準化された質問項目と電子カルテの統合が推奨される。
シングルセンター研究:
- 外部検証と多施設展開が必要。
- 病院の紹介システムや患者人口により結果が異なる可能性がある。
手動データ処理:
- 自動化技術の導入により、データ収集と処理の効率化が求められる。
臨床ワークフローへの統合:
- 電子カルテやユーザーフレンドリーなダッシュボードへの統合が必須。
- EDや外科スタッフへの教育と段階的導入が推奨される。

結論

本研究のMLモデルは、検査データに依存せず、虫垂炎を正確に診断可能。
アルバラードスコアおよび経験豊富なED医師の一部を上回る性能を示した。
ED初期診断における虫垂炎と他のAAP原因の早期識別を改善する潜在力を有する。

造影CTについて、Perplexityにて

造影CT（CECT）による急性虫垂炎の診断精度

造影CT（CECT）は急性虫垂炎の診断において非常に高い精度を持ち、感度と特異度は90%以上とされている[1][5]。急性虫垂炎の診断において特に有用なCECT所見は以下の通りである：

虫垂の拡大（直径 >6 mm）
虫垂壁の肥厚
虫垂周囲脂肪の混濁（脂肪浸潤）
虫垂壁の造影増強[1]

これらの所見は急性虫垂炎と最も強く関連し、感度は66%から93%、特異度は74%から96%の範囲である[1]。

診断精度

複数の研究により、急性虫垂炎に対するCECTの高い診断精度が実証されている：

感度: 91.9%～96.4%
特異度: 89.5%～94%
正確度: 91%～91.9%[3][4]

メタアナリシスでは、成人の急性虫垂炎診断におけるCTの感度の総合値は96.6%（95% CI: 95.4–97.5%）、特異度の総合値は95.6%（95% CI: 94.1–96.7%）と報告されている[8]。

その他の考慮事項

CTで虫垂管腔の太さが2.25 mmを閾値とした場合、感度は96.4%と高いが、特異度は67%と低い[2]。
一般的に使用される6.75 mmの虫垂直径の閾値では、感度は87.5%、特異度は100%である[2]。
一部の研究では、非造影CT（NECT）がCECTに匹敵する診断性能を持つ可能性が示されており、造影剤使用に制限がある患者にとって有益である[6]。

結論

造影CTは急性虫垂炎の診断において依然として非常に高い精度を持つ診断ツールであり、複数の所見がその診断価値に寄与している。

Citations:
[1] https://pubmed.ncbi.nlm.nih.gov/14616200/
[2] https://pmc.ncbi.nlm.nih.gov/articles/PMC10643053/
[3] https://digital.car.chula.ac.th/cgi/viewcontent.cgi?article=5031&context=clmjournal
[4] https://pubmed.ncbi.nlm.nih.gov/15592916/
[5] https://journals.plos.org/plosone/article?id=10.1371%2Fjournal.pone.0276720
[6] https://pubmed.ncbi.nlm.nih.gov/32037023/
[7] https://www.aafp.org/pubs/afp/issues/2020/1001/p403.html
[8] https://www.binasss.sa.cr/bibliotecas/bhm/nov22/31.pdf
[9] https://academic.oup.com/bjs/article/108/12/1483/6421480
[10] https://ajronline.org/doi/10.2214/ajr.185.2.01850406
[11] https://pmc.ncbi.nlm.nih.gov/articles/PMC5639901/

腹部超音波（US）による急性虫垂炎の診断

腹部超音波（US）は急性虫垂炎の診断において有用であり、放射線被ばくを伴わない高い診断精度を提供する。急性虫垂炎における主な超音波所見と診断精度は以下の通りである。

超音波所見

虫垂の拡大: 直径 >6 mm[3]
虫垂の圧迫不能性[3]
虫垂壁の単層厚さ ≥3 mm[3]
ターゲットサイン:
- 低エコーの液体で満たされた管腔
- 高エコーの粘膜/粘膜下層と低エコーの筋層が特徴[3]
虫垂結石（アペンディコリス）: 高エコーで後方に音響陰影を伴う[3]
虫垂周囲の所見:
- 虫垂周囲の遊離液体
- 局所腸間膜脂肪のエコー増強
- 局所腸間膜リンパ節の腫大[3]

診断精度

腹部超音波による急性虫垂炎の診断精度は研究によって異なる。

感度: 75%～91.9%[1][2][4]
特異度: 60%～95%[1][2][4]
全体の精度: 85%～91.9%[2][6]

メタアナリシスでは、感度の総合値は81%（95% CI, 78～83%）、特異度の総合値は87%（95% CI, 85～88%）と報告されている[1]。
また、別の研究では、超音波診断は外科医の臨床判断と比較して有意に優れていることが示された（p<0.0001）[2]。

考慮事項

オペレーター依存性:
- 超音波の診断精度は検査を行う臨床医の技術に大きく依存する[1]。
非描出例:
- 一部の症例では虫垂が描出されず、追加の画像診断や臨床評価が必要となる[3]。
経膣アプローチ:
- 女性患者の場合、腹部超音波で虫垂が描出されない際には経膣超音波が有用である場合がある[5]。

結論

腹部超音波は急性虫垂炎の診断における第一選択の画像診断法として有用であり、放射線被ばくのリスクなしに高い診断精度を提供する。ただし、オペレーター依存性や虫垂非描出の可能性といった限界があるため、総合的な診断戦略の中でこれらの点を考慮する必要がある。

Citations:
[1] https://pmc.ncbi.nlm.nih.gov/articles/PMC10063291/
[2] https://jamanetwork.com/journals/jamasurgery/article-abstract/595764
[3] https://pmc.ncbi.nlm.nih.gov/articles/PMC4805616/
[4] https://www.frontiersin.org/journals/surgery/articles/10.3389/fsurg.2021.707160/full
[5] https://onlinelibrary.wiley.com/doi/full/10.1002/ajum.12235
[6] https://www.ajronline.org/doi/10.2214/AJR.19.22370
[7] https://radiopaedia.org/cases/acute-appendicitis-on-ultrasound-3

EDでの急性腹痛診断機械学習モデルの実力

要約

序文

研究方法

結果

Discussion

診断精度

その他の考慮事項

結論

超音波所見

診断精度

考慮事項

結論

いいなと思ったら応援しよう！