3分マスター！「因果推論ってなにニャ？」マチコ先生とニャー助のデータサイエンス講座番外編#003

米国大学教授が教える「ニャー助とマチコ先生で学ぶAI・データサイエンス」

2023年4月26日 05:22

都内　某公園にて

マチコ先生: ねえ、ニャー助。今日はお天気もいいし、公園でまったりしようか？

ニャー助: いいねニャ！公園でのんびりするのも楽しいニャ！

（公園でくつろぎながら）

マチコ先生: 今日はデータサイエンスと因果推論の関係について話そうと思うんだ。ニャー助、それって知ってる？

ニャー助: うーん、データサイエンスはなんとなくわかるけど、因果推論って何だニャ？

マチコ先生: 因果推論は、ある事象が別の事象に影響を与えるかどうかを調べる方法のことだよ。データサイエンスはデータを使って意思決定や予測を行う分野で、因果推論はその中でも重要な役割を果たしているんだ。

ニャー助: ふむふむ、それってどういうことニャ？

マチコ先生: 例えば、ある薬が病気の治療に効果があるかどうかを調べたいとしよう。データサイエンスを使って、薬を飲んだ人と飲まなかった人のデータを分析することができるね。

ニャー助: そうだニャ！でも、それだけじゃどっちがどっちのせいかわからないニャ？

マチコ先生: そうなんだ。だから因果推論が登場するんだよ。因果推論を使うと、他の要因を考慮して、薬が本当に効果があるのかどうかを調べることができるの。

ニャー助:　ふむふむ。すると因果推論は薬の効果以外にも役に立つニャ？

マチコ先生: そのとおりよ、ニャー助。薬以外にも、教育や経済、社会政策など、様々な分野で因果推論が使われているんだよ。例えば、ある教育プログラムが学生の成績にどのくらい影響しているか、ある経済政策が雇用にどんな効果があるか、そういったことを調べるためにも因果推論が役立つんだよ。

ニャー助: へぇ、すごいニャ！でも、どうやって因果推論をするのニャ？

ランダム化比較試験（RCT）って何ニャ？

マチコ先生: （お、食いついてきたね）いろんな方法があるんだけど、ランダム化比較試験（RCT）という方法がよく使われているよ。それは、被験者を無作為に薬を飲むグループと飲まないグループに分けて、効果を比較する方法だね。

ニャー助：ランダム化比較試験（RCT）が因果推論としてうまく機能する理由を、ニャー助にもわかるように説明してほしいニャ～

マチコ先生: いいよ、ニャー助。さっき、RCTは、参加者をランダムに2つのグループに分ける方法で、一方のグループには何らかの処置（例えば、薬）を行い、もう一方のグループには何もしない、という実験を行うって言ったじゃない？

このランダムに分けるところがポイントで、ランダムに分けることで、処置を受けるグループと受けないグループの間にある違いやバイアスがなくなるんだ。つまり、もともとの性別や年齢、体質などの違いが影響を与えなくなるよ。

だから、RCTで2つのグループの結果を比較することで、その違いが本当に処置（薬）によるものなのか、それとも他の要因によるものなのかを判断することができるんだ。

ニャー助: なるほどニャ！ランダムに分けることで、それぞれのグループに違いがなくなるから、ちゃんと処置（薬）の効果がわかるんだね！それで、データサイエンスと因果推論は一緒に使われることが多いんだニャ？

マチコ先生: そうだね。データサイエンスはデータを分析するための技術や手法を提供していて、因果推論はその中で意味のある結論を導くためのフレームワークを提供しているんだ。だから、両方がうまく組み合わさって、より正確な分析ができるよ。

ニャー助: じゃあ、次は因果推論を行うRのプログラムを書いてみてほしいニャ～

ランダム化比較試験（RCT)をRで実装するニャ！

マチコ先生: いいわよ、ニャー助。それじゃあ、Rを使って因果推論を行う具体的なプログラムについて話すね。ここでは、フェイクデータを生成して、因果推論を行う具体的なRプログラムについて説明するね。ここでは、ランダム化比較試験（RCT）データをシミュレートして、薬の効果を推定してみよう。

まずは、フェイクデータを生成するためのパッケージとシード値を設定するよ。

set.seed(1)

次に、フェイクデータを生成する関数を定義するよ。

create_fake_data <- function(n) {
  treatment <- rbinom(n, 1, 0.5)
  outcome_no_treatment <- rnorm(n, 10, 2)
  treatment_effect <- 2
  outcome <- outcome_no_treatment + treatment * treatment_effect
  data.frame(treatment, outcome)
}

この関数では、n人の被験者について、ランダムに0(薬を飲まない)と1(薬を飲む)を割り当てて、治療効果として2を設定しているよ。

ニャー助: ニャニャニャ、マチコ先生待ってニャ！一行ごとにプログラムを説明してほしいニャ！

マチコ先生:　ごめんごめん、ニャー助。このRコードは、フェイクデータを作成しているんだ。一行ずつ説明するね。

treatment <- rbinom(n, 1, 0.5): これは、「treatment」という変数に、n個の二項分布に従ったランダムな値（0か1）を代入しているよ。0.5は、1が出る確率を表していて、処置を受けたかどうかを示す変数だね。
outcome_no_treatment <- rnorm(n, 10, 2): これは、「outcome_no_treatment」という変数に、n個の正規分布に従ったランダムな値を代入しているよ。平均が10で、標準偏差が2だね。これは、処置を受けていない場合の結果を示す変数だよ。
treatment_effect <- 2: これは、「treatment_effect」という変数に2を代入しているよ。これは、処置の効果を表す値だね。
outcome <- outcome_no_treatment + treatment * treatment_effect: これは、「outcome」という変数に、処置を受けていない場合の結果（outcome_no_treatment）に、処置の効果（treatment_effect）と処置の有無（treatment）をかけたものを足しているよ。これで、処置を受けた場合の結果を計算しているんだ。
data.frame(treatment, outcome): これは、処置の有無（treatment）と結果（outcome）をデータフレームにまとめているよ。これで、フェイクデータが完成するんだ。

ニャー助: なるほどニャ！これで、コードがどのようにフェイクデータを作成しているかがよくわかったニャ！

マチコ先生:　よかったわ。それでは、フェイクデータを生成してみよう。

n <- 100
data <- create_fake_data(n)

この2行のRコードも説明するね。

n <- 100: これは、「n」という変数に100を代入しているよ。nは、サンプルサイズを表すんだ。つまり、100個のデータを作成することになるね。
data <- create_fake_data(n): これは、先ほど説明したcreate_fake_data関数を使って、n個（この場合は100個）のフェイクデータを作成して、「data」という変数に代入しているよ。この「data」変数には、処置の有無（treatment）と結果（outcome）が含まれたデータフレームが入るんだ。

ニャー助: なるほどニャ！このコードで、100個のフェイクデータを作成しているんだね。

マチコ先生:　そうよ。データが生成できたら、薬の効果を推定するために、独立2群のt検定を使ってみるね。まず、t検定の結果を変数に代入しておこう。


t_test_result <- t.test(outcome ~ treatment, data = data)

次に、t検定結果から重要な情報を取得するよ。

estimate <- t_test_result$estimate
conf_int <- t_test_result$conf.int
p_value <- t_test_result$p.value

t_test_result$estimateには、2つのグループ間の平均値の差が格納されているよ。これが薬の効果の推定値になるね。
t_test_result$conf.intには、95%信頼区間が格納されていて、真の効果がこの範囲に含まれる確率が95%だと言えるよ。
t_test_result$p.valueは、帰無仮説（薬に効果がない）が正しい場合に、観測された効果以上の効果が発生する確率だね。p値が小さいほど、帰無仮説が棄却される可能性が高くなるよ。

ところでT検定って・・なにニャ？

ニャー助: 独立2群のt検定って何かにゃ？

マチコ先生: あ、ごめん。説明するね、ニャー助！

t検定（independent two-sample t-test）は、2つの独立したグループ（群）の平均値に差があるかどうかを調べる統計的検定方法だよ。例えば、新しい薬の効果を調べたい時に、実際に薬を使ったグループとプラシーボ（効果のない薬）を使ったグループの平均値を比較して、その差が統計的に意味があるかどうかを調べることができるんだ。

独立2群のt検定は、次のような仮説を立てて検定を行うよ。

帰無仮説（H0）: 2つのグループの平均値に差がない（つまり、平均値は等しい）
対立仮説（H1）: 2つのグループの平均値に差がある（つまり、平均値は等しくない）

t検定を行った結果、p値が得られるんだ。p値が小さいほど、帰無仮説を棄却し、対立仮説を支持する根拠が強くなるよ。一般的に、p値が0.05以下の場合、帰無仮説を棄却して、2つのグループの平均値には有意な差があると判断することが多いんだ。

ニャー助: なるほどニャ！独立2群のt検定で、2つのグループの平均値に差があるかどうかを調べることができるんだね！

マチコ先生: そのとおりだよ、ニャー助。それでは、結果を表示してみよう。

RCTの効果を解釈するニャ！

cat("Treatment effect estimate:", estimate[2] - estimate[1], "\n")
cat("95% Confidence Interval:", conf_int[1], "-", conf_int[2], "\n")
cat("p-value:", p_value, "\n")

例えば、以下のような結果が得られたとするね。

Treatment effect estimate: 2.123
95% Confidence Interval: 1.459 - 2.787
p-value: 0.000015

この場合、薬の効果の推定値は約2.123で、95%信頼区間は1.459から2.787の範囲になるよ。p値が非常に小さいので、帰無仮説（薬に効果がない）を棄却し、薬には有意な効果があると結論づけることができるね。

ニャー助: なるほどニャ！t検定の結果を使って、薬の効果を推定できるんだね！

RCT以外の因果推論はあるニャ？

マチコ先生: もちろん、ニャー助！RCT以外にも因果推論を行う手法がいくつかあるよ。初心者のニャー助にもわかるように説明するね。

「回帰分析」: 回帰分析は、複数の変数間の関係を調べる手法だよ。処置の効果を調べるために、処置変数と結果変数の間の関係を調べるんだ。他の影響を受ける変数も一緒に考慮することで、因果関係を推定することができるよ。
「プロペンシティスコアマッチング」: プロペンシティスコアマッチングは、処置群と対照群をうまく比較できるように、似たような条件の被験者をペアにする方法だよ。これによって、処置の効果を比較しやすくなるんだ。
「差分の差法」: 差分の差法は、処置前後の変化を比較することで、処置の効果を調べる方法だよ。処置群と対照群の両方で、処置前後の変化を比較して、その違いから処置の効果を推定するんだ。
「計画的実験デザイン」: 計画的実験デザインは、RCTのように無作為に処置を行うわけではないけれど、実験の進め方やデータ収集の方法を工夫して、因果関係を推定する方法だよ。例えば、処置を受ける人をあらかじめ決めておいて、その影響を調べる方法があるよ。

これらはすべて、因果推論を行うための方法で、どれも状況やデータに応じて使い分けられるんだ。ただ、RCTが一番確実な結果が得られる方法とされていることを覚えておいてね。

ニャー助: なるほどニャ！RCT以外にもいろいろな因果推論の方法があるんだね！じゃあ、それぞれの利点って何なのかにゃ？

それぞれの手法には利点があるニャ！

マチコ先生: もちろん、ニャー助！それぞれの因果推論の方法には利点があるよ。一つずつ説明するね。

「回帰分析」の利点: 回帰分析は、複数の変数間の関係を調べる手法で、データを使って効果的に因果関係を推定できるんだ。また、どの変数がどのくらい影響しているかを数値で示すことができるので、効果の大きさや方向性を理解しやすいよ。
「プロペンシティスコアマッチング」の利点: プロペンシティスコアマッチングは、処置群と対照群をうまく比較できるように、似たような条件の被験者をペアにする方法だよ。これによって、データの傾向を考慮しながら、処置の効果を比較しやすくなるんだよ。
「差分の差法」の利点: 差分の差法は、処置前後の変化を比較することで、処置の効果を調べる方法だよ。時間の経過による影響を考慮できるので、処置の効果が徐々に現れるような状況でも、因果関係を推定することができるんだよ。
「計画的実験デザイン」の利点: 計画的実験デザインは、実験の進め方やデータ収集の方法を工夫して、因果関係を推定する方法だよ。RCTと比べて実施が容易で、現実の状況に近い条件で実験を行うことができる場合があるんだ。

これらの利点を考慮しながら、状況やデータに応じて適切な因果推論の方法を選ぶことが大切だよね。

ニャー助: なるほどニャ！それぞれの方法には利点もあるから、状況に合わせてうまく使い分ける必要があるんだね！じゃあ、欠点もあるのかにゃ？

それぞれの手法には欠点もあるニャー！

マチコ先生: いい質問ね、ニャー助！それぞれの因果推論の方法には、欠点もあるよ。一つずつ説明するね。

「回帰分析」の欠点: 回帰分析は、観測データを使って因果関係を推定するけど、すべての影響を受ける変数を正確に測定してモデルに組み込めるとは限らないんだ。もし、重要な変数が抜けていると、推定された因果関係が正確でなくなってしまうよ。
「プロペンシティスコアマッチング」の欠点: プロペンシティスコアマッチングは、似たような条件の被験者同士を比較することで因果関係を推定するけど、マッチングできる被験者が十分にいない場合や、マッチングに使った変数以外の重要な変数がある場合、正確な因果関係が推定できないことがあるんだ。
「差分の差法」の欠点: 差分の差法は、処置前後の変化を比較して因果関係を推定するけど、処置群と対照群が本当に同じ条件で変化しているかどうかが前提になっているんだ。もし、処置以外の要因で両群の変化に違いがある場合、正確な因果関係が推定できなくなるよ。
「計画的実験デザイン」の欠点: 計画的実験デザインは、実験の進め方やデータ収集の方法を工夫して因果関係を推定するけど、実験条件が現実の状況と一致していない場合や、実験の結果が他の状況に適用できない場合、推定された因果関係が現実の状況に適用できないことがあるんだ。

これらの欠点を考慮しながら、状況やデータに応じて適切な因果推論の方法を選ぶことが大切だよ。

ニャー助: なるほどニャ！それぞれの方法には欠点もあるから、状況に合わせてうまく使い分ける必要があるんだね！これからは、因果関係を意識して物事を考えてみるニャ！マチコ先生、教えてくれてありがとうニャ！

マチコ先生: どういたしまして、ニャー助！これからも一緒に学んでいこうね。

ニャー助:　いろいろ学んだら眠くなってきたニャ。学んだことと眠くなったこと、因果関係あるのかニャ・・ムニャムニャ

マチコ先生: あ、それは相関関係と因果関係の良い題材ね、、ってもう寝てるか。これもRCTできるといいけど、ニャー助がもう一匹必要ね・・

◆マチコ先生とニャー助シリーズはツイッターで最新記事のお知らせをしています。

https://twitter.com/ProfX_US