急性消化管出血における死亡リスク：XGBoostおよびCatBoostモデル従来のリスク評価ツールよりも優れた評価可能

2025年2月23日 08:53

CatBoostが特に優秀らしい

MLモデルの性能評価

XGBoostおよびCatBoostのAUCはともに0.84と良好なパフォーマンス。
従来のリスク評価スコアと比較して、GBSおよび内視鏡前Rockallスコアは低いAUC（それぞれ0.68、0.62）を示した。
ABCスコアもMLモデルに比べて劣り、AUCは0.77。
6つの評価指標に基づく結果：
- CatBoost: 高い感度（0.78）、特異度も良好（0.74）
- XGBoost: 高い**特異度（0.96）**だが、感度は低い（0.25）

Boros, Eszter, József Pintér, Roland Molontay, Kristóf Gergely Prószéky, Nóra Vörhendi, Orsolya Anna Simon, Brigitta Teutsch, ほか. 「New machine-learning models outperform conventional risk assessment tools in Gastrointestinal bleeding」. Scientific Reports 15, no. 1 (2025年2月21日): 6371. https://doi.org/10.1038/s41598-025-90986-1.

１）XGBoost

２）CatBoost
Prokhorenkova, L. O. et al. CatBoost: unbiased boosting with categorical features. In S Bengio, H M Wallach, H Larochelle, K Grauman, N Cesa-Bianchi & R Garnett (eds), NeurIPS :6639-49 (2018).

急性消化管出血（GIB）の高リスク患者を迅速かつ正確に特定することは非常に重要である。私たちは、明らかなGIBのために入院した患者の院内死亡リスクを算出するために、2つの機械学習（ML）モデルを開発した。ハンガリーの前向き多施設共同研究であるGIBレジストリのデータを分析した。

XGBoostおよびCatBoost機械学習アルゴリズムの予測性能を、Glasgow-Blatchfordスコア（GBS）、内視鏡前Rockallスコア、およびABCスコアと比較した。モデル評価は5分割交差検証で行い、性能は**受信者動作特性曲線下面積（AUC）**の95%信頼区間（CI）を用いて測定した。

最終的に、1,021人の患者が分析に含まれ、そのうち108例で院内死亡が発生した。内部検証セットにおいて、XGBoostおよびCatBoostモデルは死亡患者を特定する上で、それぞれAUC 0.84（CI: 0.76–0.90）および0.84（CI: 0.77–0.90）の性能を示した。一方、GBSおよび内視鏡前Rockall臨床スコアリングシステムは、AUCがそれぞれ0.68（CI: 0.62–0.74）および0.62（CI: 0.56–0.67）と、著しく低い性能を示した。ABCスコアは0.77（CI: 0.71–0.83）のAUCを示した。

XGBoostモデルは、感度0.25（CI: 0.10–0.43）の条件で特異度 0.96（CI: 0.92–0.98）を示したのに対し、CatBoostモデルは、感度0.78（CI: 0.57–0.95）の条件で特異度 0.74（CI: 0.66–0.83）を示した。

総じて、XGBoostおよびCatBoostモデルは、急性消化管出血における死亡リスクを、従来のリスク評価ツールよりも優れた精度で評価することができる。

序文要約

急性消化管出血（GIB）に関する要約（箇条書き）

死亡率の現状
- 過去30年間でGIBの疫学や管理は変化したが、死亡率は依然として**2–20%**と高い。
- デンマークの大規模研究（12,601人）では、血行動態が不安定な患者の死亡率は13%、安定した患者では3.8%。
- フランスの前向き研究では、入院患者の死亡率は16.8%、外来患者では5.8%。
- システマティックレビューでは、上部消化管出血（UGIB）の致死率は0.7–4.8%、下部消化管出血（LGIB）は0.5–8.0%。
リスク評価の重要性
- 救急医療における早期リスク評価は、死亡率の低下に重要。
- 高リスク患者にはICU入室、輸血、輸液蘇生、昇圧剤使用、および内視鏡的治療が必要となる場合が多い。
従来のリスク評価ツール
- 使用されるスコアリングシステムには以下がある：
  - Glasgow-Blatchford score (GBS)
  - 内視鏡前Rockallスコア
  - AIMS65、PNED、完全Rockallスコア、T-score、MAP(ASH)
- ABCスコアは、UGIBおよびLGIBの死亡リスク予測に有用。
- GBSは低リスク患者の外来管理選定には有効だが、死亡率、再出血、内視鏡治療の予測精度は低い。
- 高齢者と若年者で異なるスコアリングシステムが有効との指摘もある。
- 臨床現場での使用には限界や議論も多い。
人工知能（AI）と機械学習（ML）の活用
- 過去10年間で、臨床データの大量処理が必要となり、AIの医療分野への応用が進展。
- MLは、トレーニングデータに基づきモデルを構築し、経験によって性能向上が可能。
- 従来の統計分析よりも正確かつ精密に個別化診断や臨床結果予測が期待される。
- 大規模かつ複雑で不均衡なデータセットの解析に適している。
ハンガリー急性GIBレジストリの役割と目的
- 包括的な患者データの収集と院内管理の追跡を目的に設立。
- 本研究では、明らかなGIBのために入院した患者の院内死亡リスクを算出するMLモデルの開発と検証を実施。
- 出血源にかかわらず、高リスクと低リスクの死亡リスクグループへのトリアージ支援を目指す。

結果

研究結果の箇条書き要約

1. コホートの基本的特徴

総患者数は1,021人で、中央値年齢は70歳（IQR: 61–80）、60%が男性。
出血源の内訳：
- 非静脈瘤性上部消化管出血（UGIB）：527人（52%）
- 静脈瘤性出血：91人（8.9%）
- 下部消化管出血（LGIB）：303人（30%）
- 小腸出血：23人（2.3%）
- 医原性出血：77人（7.5%）
GIBが入院理由となったケースは82%、すでに入院中に発生したケースは18%。
院内死亡率は11%（108人）。

2. 機械学習モデルの評価

機械学習モデルのROC曲線と、Glasgow-Blatchfordスコア（GBS）、内視鏡前Rockallスコア、ABCスコアのパフォーマンスとの比較。
図1(A) はXGBoostモデルを示し、図1(B) はCatBoostモデルを示す。
AUC：受信者動作特性曲線下面積（area under the receiver operating characteristic curve） GBS：Glasgow-Blatchfordスコア ROC：受信者動作特性曲線（receiver operating characteristic）

XGBoostおよびCatBoostのAUC（内部検証セット）:
- XGBoost: 0.84（CI: 0.76–0.90）
- CatBoost: 0.84（CI: 0.77–0.90）
従来のスコアリングシステムのAUC:
- GBS: 0.68（CI: 0.62–0.74）
- 内視鏡前Rockallスコア: 0.62（CI: 0.56–0.67）
- ABCスコア: 0.77（CI: 0.71–0.83）
性能指標（全体コホート）
- XGBoost:
  - 精度: 0.88（CI: 0.85–0.91）
  - 感度: 0.25（CI: 0.09–0.43）
  - 特異度: 0.96（CI: 0.92–0.98）
- CatBoost:
  - 精度: 0.75（CI: 0.69–0.80）
  - 感度: 0.78（CI: 0.57–0.95）
  - 特異度: 0.74（CI: 0.66–0.83）
解釈:
- XGBoostは高い特異度で死亡リスクが低い患者の除外に有効。
- CatBoostは高い感度で死亡リスクが高い患者の特定に有用。

3. 上部消化管出血患者のサブグループ分析

AUC値（上部消化管出血患者のみ）：
- XGBoost: 0.79（CI: 0.72–0.86）
- CatBoost: 0.79（CI: 0.71–0.88）
- GBS: 0.62（CI: 0.56–0.70）
- 内視鏡前Rockallスコア: 0.61（CI: 0.55–0.67）
- ABCスコア: 0.76（CI: 0.70–0.83）
感度と特異度：
- XGBoost
  - 感度: 0.27（CI: 0.12–0.43）
  - 特異度: 0.94（CI: 0.89–0.98）
- CatBoost
  - 感度: 0.79（CI: 0.58–0.99）
  - 特異度: 0.63（CI: 0.51–0.71）

4. 機械学習モデルの解釈（SHAP解析）

XGBoostモデルにおける影響が大きい要素（重要度順）：
1. CRPレベル
2. 喫煙歴
3. 肝疾患の有無
4. 最低収縮期血圧
5. 最初の内視鏡としての胃カメラ実施
6. 初回内視鏡での介入
7. 既往のGIBエピソード
CatBoostモデルにおける影響が大きい要素：
1. CRPレベル
2. 喫煙歴
3. メレナ（黒色便）の有無
4. 最低収縮期血圧
5. 既往のGIBエピソード
6. Glasgow Coma Scale (GCS) スコア
7. ヘモグロビン値

5. 死亡リスクに対する影響要因

リスク上昇因子：
- 高CRPレベル
- 低血小板数
- 低ヘモグロビン値
- 低収縮期血圧
- 高クレアチニンレベル
- 低GCSスコア
リスク低下因子（保護要因）：
- 喫煙歴なし
- 肝疾患なし
- 最初の内視鏡として胃カメラ未実施
- メレナの自覚症状あり
- 既往のGIBエピソードあり
- 外来での受診

6. 個別患者のリスク評価（CatBoostモデルによる事例分析）

ケース1：全ての要因が良好 → 死亡リスク 0%
ケース2：肝疾患と喫煙歴がリスク上昇要因 → 死亡リスク 75%
ケース3：低血圧、CRP上昇、低ヘモグロビン値が主因 → 最も高い死亡リスク

この結果から、機械学習モデルは個別患者の死亡リスク予測において、従来のスコアリングシステムよりも高精度であることが示唆された。

Discussion要約

1. 研究概要と目的

2つの機械学習（ML）ベースの死亡リスク評価ツール（XGBoostとCatBoost）を開発し、GBS、内視鏡前Rockallスコア、ABCスコアと比較。
多施設共同の観察研究で、1,021人の患者データを前向きおよび後ろ向きに収集。
リスクスコアは0から1の値で算出され、性能評価はAUCに基づいて実施。

2. MLモデルの性能評価

XGBoostおよびCatBoostのAUCはともに0.84と良好なパフォーマンス。
従来のリスク評価スコアと比較して、GBSおよび内視鏡前Rockallスコアは低いAUC（それぞれ0.68、0.62）を示した。
ABCスコアもMLモデルに比べて劣り、AUCは0.77。
6つの評価指標に基づく結果：
- CatBoost: 高い感度（0.78）、特異度も良好（0.74）
- XGBoost: 高い**特異度（0.96）**だが、感度は低い（0.25）
結論: 臨床意思決定にはCatBoostが推奨され、死亡リスクの高い患者を特定するのに有効。

3. 出血源に関係なく使用可能なリスク評価

出血源（上部、下部、静脈瘤性）に関係なく適用可能なリスク評価ツールとして設計。
上部消化管出血患者のサブグループでもAUCは0.79と、全体の0.84と比較して大きな差は見られなかった。
従来のスコア（GBS、Rockall）は上部消化管出血においても全体コホートと同様に低いパフォーマンスを示した。

4. リスク評価の臨床的重要性

GIBにおける死亡リスクの高い患者を特定することで、個別化された治療と早期介入が可能に。
出血源の特定には内視鏡が必要であり、通常12–24時間かかるため、即時に使えるリスク評価ツールが有用。

5. SHAP値によるモデル解釈

XGBoostとCatBoostモデルで最も影響の大きい要因はCRPレベル。
その他の重要な要因：
- 喫煙歴
- 肝疾患の有無
- 最低収縮期血圧
- 既往のGIBエピソード
- Glasgow Coma Scale (GCS) スコア
- ヘモグロビン値
既往のGIBエピソードは死亡リスクを低下させる保護要因とされ、早期管理や内視鏡検査が影響している可能性。

6. 他の研究との比較

Deshmukhらの研究では、MLモデルのAUC 0.85、特異度は27%、APACHE IVaスコアと比較して高性能。
Shungらの研究では、複数のMLモデルがGBS、AIMS65、内視鏡前Rockallスコアを上回るパフォーマンスを示した。
Rotondanoらによる初期の人工ニューラルネットワーク（ANN）モデルは、AUC 0.95、感度83.8%、特異度**97.5%**で高性能を記録。

7. 研究の限界と今後の課題

外部検証が未実施であり、他のMLモデルと比較して患者数が中程度。
データ収集時に人的エラーが生じる可能性がある。
今後は、開発したMLリスク評価ツールの外部検証と、再出血リスクや介入の必要性といった他の臨床転帰の予測性能を評価する予定。

8. 結論と提言

新たに開発したMLモデル（特にCatBoost）は、従来のリスク評価ツールよりも優れた予測精度を持つ。
出血源にかかわらず適用可能で、特に早期リスク評価に有効。
臨床現場での実用化に向け、外部検証とさらなる最適化が必要。