見出し画像

『因果フォレスト』365日後に統計解析がこわくなくなる!ゆるマラソン【8日目】

毎日1つ、実際の論文で使われているデザイン・統計解析の手法を 分かりやすく 紹介していきます。

統計解析をもっと身近に!1日5分のゆるマラソン🏃‍♂️💨

「論文の統計手法がよく分からない…」「統計解析って難しそう…」

そんなあなたにぴったりの 「1日5分の統計マラソン」!


今日のテーマ:因果フォレスト(Causal Forest)とは?




1. 今回の論文:Medicaidが心血管リスクに与える影響を解析

📄 論文タイトル
"Heterogeneous effects of Medicaid coverage on cardiovascular risk factors: secondary analysis of randomized controlled trial"(BMJ, 2024)

🔍 研究の目的

  • 低所得者向け公的医療保険(Medicaid)が血圧やHbA1cなどの心血管リスクに及ぼす影響を評価

  • 機械学習(因果フォレスト)を用いて、Medicaidの効果が異なるサブグループを特定

👥 研究デザイン

  • 2008年のオレゴン州のMedicaid保険拡大に関するRCTの二次解析

  • 対象:オレゴン健康保険実験(Oregon Health Insurance Experiment)に参加した12,134人

  • 因果フォレストを用いた治療効果の異質性を解析

📊 主要な結果

  • Medicaid加入は血圧を平均約5mmHg低下させる可能性があるが、効果は一部のサブグループに限定される

  • HbA1c低下の効果は統計的には有意でも、臨床的には重要でない可能性あり

  • 特に、過去の医療費が低い人ほどMedicaidの恩恵を受けやすい傾向があった

📝 結論

  • 平均的な効果(ATE)は小さいが、特定のサブグループでは有意な改善が見られた

  • 因果フォレストを用いることで、治療効果が高い集団を特定し、医療資源をより効果的に配分できる可能性がある


2. Statistical Analysis

a. 因果フォレストとは?

因果フォレスト(Causal Forest)は、機械学習を用いた因果推論の手法で、「介入の効果がどのような人に強く現れるか?」をデータから学習 する方法です。

通常の因果推論では、介入群と非介入群のアウトカムの平均を比較し、平均介入効果(ATE: Average Treatment Effect)を求める のが一般的です。

しかし、実際には「すべての人に同じ効果があるわけではない」*ため、因果フォレストでは「個別の治療効果(ITE: Individual Treatment Effect)」を推定 します。


b. どんな時に使うのか?

介入の効果が個人によって異なると考えられるとき
→ 例えば、薬の効果が年齢や既往歴によって違う場合 に有効

「どのような人が最も治療の恩恵を受けるのか?」を知りたいとき
→ 医療リソースを最適に配分するために役立つ

単純な回帰分析では説明しきれない、複雑な関係を明らかにしたいとき
→ 多くの交互作用が絡む場合、因果フォレストが有効


c. 研究での因果フォレストの活用方法

実際に因果フォレストは何をしているのでしょうか。0から説明します。


1️⃣ ブートストラップを用いてデータのサブセットを作成
まず、データ全体を複数のサブセットに分割 します。これは、ランダムフォレストと同様の ブートストラップ法(データをランダムに抽出して部分集合を作成)を用いて行います。

なぜブートストラップするのか?
◆ データのばらつきを考慮しながら学習するため
◆ 複数のモデルを組み合わせることで、より安定した予測ができるため

2️⃣ 各サブセットで、因果効果の異質性を最大化するように決定木(Causal Trees)を構築

ブートストラップで作成した各サブセットに対して、決定木(Causal Trees)を構築 します。

ランダムフォレストの決定木では 「どの分割がアウトカム(心血管疾患の有無)を最もよく予測するか?」 を考慮しますが、因果フォレストでは「どの分割が最も異なる治療効果を持つグループを作れるか?」 を考えます。

分割して新しいノードを作ることを繰り返していき、それ以上分けられないポイント(リーフノード)まで続ける。


3️⃣ 決定木を多数(2000本以上)作成し、最終的な予測を平均化
Decision treeを作成する際、Honest splittingを行い、50%をモデルトレーニング、50%を治療あり・なしのアウトカム発生確率を推定する。これにより、各Featureの組み合わせごとに、アウトカム発生確率が推定できる。

4️⃣ 各個人における因果効果(ITE)を推定

決定木の結果を統合し、個々の患者における因果効果(ITE: Individual Treatment Effect) を推定します。

■ ITEとは?
「この人が治療を受けたとき、どれくらいの影響があるのか?」 を示す指標

例えば:

  • 「この患者がMedicaidを受けると、受けない時と比較し、血圧が6mmHg下がる」(連続変数)


5️⃣ ITEが高い集団を特定し、特徴を分析

高ベネフィット群と低ベネフィット群を特定し、グループ間の特徴を比較できます。


3. まとめ

因果フォレストは、「治療効果の異質性」をみるための機械学習の手法のひとつです。従来のサブグループ解析よりも、より精密な解析が可能です。治療の恩恵を最も受ける患者群を見つけることで、個別化医療に大いに役立つと考えられます。

2025/2/7


いいなと思ったら応援しよう!

米国で奮闘する医者の日常
もしよろしければ、応援いただけると嬉しいです!いただいたサポートを励みに、さらに良い記事をお届けできるよう頑張ります✨

この記事が参加している募集