![見出し画像](https://assets.st-note.com/production/uploads/images/173628608/rectangle_large_type_2_88f3801d7c12764b55dbccb41801abf3.png?width=1200)
『因果フォレスト』365日後に統計解析がこわくなくなる!ゆるマラソン【8日目】
毎日1つ、実際の論文で使われているデザイン・統計解析の手法を 分かりやすく 紹介していきます。
統計解析をもっと身近に!1日5分のゆるマラソン🏃♂️💨
「論文の統計手法がよく分からない…」「統計解析って難しそう…」
そんなあなたにぴったりの 「1日5分の統計マラソン」!
今日のテーマ:因果フォレスト(Causal Forest)とは?
1. 今回の論文:Medicaidが心血管リスクに与える影響を解析
📄 論文タイトル
"Heterogeneous effects of Medicaid coverage on cardiovascular risk factors: secondary analysis of randomized controlled trial"(BMJ, 2024)
🔍 研究の目的
低所得者向け公的医療保険(Medicaid)が血圧やHbA1cなどの心血管リスクに及ぼす影響を評価
機械学習(因果フォレスト)を用いて、Medicaidの効果が異なるサブグループを特定
👥 研究デザイン
2008年のオレゴン州のMedicaid保険拡大に関するRCTの二次解析
対象:オレゴン健康保険実験(Oregon Health Insurance Experiment)に参加した12,134人
因果フォレストを用いた治療効果の異質性を解析
📊 主要な結果
Medicaid加入は血圧を平均約5mmHg低下させる可能性があるが、効果は一部のサブグループに限定される
HbA1c低下の効果は統計的には有意でも、臨床的には重要でない可能性あり
特に、過去の医療費が低い人ほどMedicaidの恩恵を受けやすい傾向があった
📝 結論
平均的な効果(ATE)は小さいが、特定のサブグループでは有意な改善が見られた
因果フォレストを用いることで、治療効果が高い集団を特定し、医療資源をより効果的に配分できる可能性がある
2. Statistical Analysis
a. 因果フォレストとは?
因果フォレスト(Causal Forest)は、機械学習を用いた因果推論の手法で、「介入の効果がどのような人に強く現れるか?」をデータから学習 する方法です。
通常の因果推論では、介入群と非介入群のアウトカムの平均を比較し、平均介入効果(ATE: Average Treatment Effect)を求める のが一般的です。
しかし、実際には「すべての人に同じ効果があるわけではない」*ため、因果フォレストでは「個別の治療効果(ITE: Individual Treatment Effect)」を推定 します。
b. どんな時に使うのか?
◆ 介入の効果が個人によって異なると考えられるとき
→ 例えば、薬の効果が年齢や既往歴によって違う場合 に有効
◆ 「どのような人が最も治療の恩恵を受けるのか?」を知りたいとき
→ 医療リソースを最適に配分するために役立つ
◆ 単純な回帰分析では説明しきれない、複雑な関係を明らかにしたいとき
→ 多くの交互作用が絡む場合、因果フォレストが有効
c. 研究での因果フォレストの活用方法
実際に因果フォレストは何をしているのでしょうか。0から説明します。
1️⃣ ブートストラップを用いてデータのサブセットを作成
まず、データ全体を複数のサブセットに分割 します。これは、ランダムフォレストと同様の ブートストラップ法(データをランダムに抽出して部分集合を作成)を用いて行います。
なぜブートストラップするのか?
◆ データのばらつきを考慮しながら学習するため
◆ 複数のモデルを組み合わせることで、より安定した予測ができるため
2️⃣ 各サブセットで、因果効果の異質性を最大化するように決定木(Causal Trees)を構築
ブートストラップで作成した各サブセットに対して、決定木(Causal Trees)を構築 します。
ランダムフォレストの決定木では 「どの分割がアウトカム(心血管疾患の有無)を最もよく予測するか?」 を考慮しますが、因果フォレストでは「どの分割が最も異なる治療効果を持つグループを作れるか?」 を考えます。
分割して新しいノードを作ることを繰り返していき、それ以上分けられないポイント(リーフノード)まで続ける。
3️⃣ 決定木を多数(2000本以上)作成し、最終的な予測を平均化
Decision treeを作成する際、Honest splittingを行い、50%をモデルトレーニング、50%を治療あり・なしのアウトカム発生確率を推定する。これにより、各Featureの組み合わせごとに、アウトカム発生確率が推定できる。
4️⃣ 各個人における因果効果(ITE)を推定
決定木の結果を統合し、個々の患者における因果効果(ITE: Individual Treatment Effect) を推定します。
■ ITEとは?
「この人が治療を受けたとき、どれくらいの影響があるのか?」 を示す指標
例えば:
「この患者がMedicaidを受けると、受けない時と比較し、血圧が6mmHg下がる」(連続変数)
5️⃣ ITEが高い集団を特定し、特徴を分析
高ベネフィット群と低ベネフィット群を特定し、グループ間の特徴を比較できます。
3. まとめ
因果フォレストは、「治療効果の異質性」をみるための機械学習の手法のひとつです。従来のサブグループ解析よりも、より精密な解析が可能です。治療の恩恵を最も受ける患者群を見つけることで、個別化医療に大いに役立つと考えられます。
2025/2/7
いいなと思ったら応援しよう!
![米国で奮闘する医者の日常](https://assets.st-note.com/production/uploads/images/171220811/profile_777a8ac46e6353683876c31d8d4fc577.png?width=600&crop=1:1,smart)