見出し画像

原因と結果の経済学 〜データから真実を見抜く思考法〜

「原因と結果」の経済学 〜データから真実を見抜く思考法〜 (中室 牧子、津川 友介 著)

1. 因果推論

因果推論:因果関係なのか、相関関係を見極める方法。因果とは原因と結果。2つの対象が、原因か結果なのかを見極める。

因果関係とは:2つの事柄のうち、片方が原因となってもう片方が結果として生じる場合
相関関係とは:片方につられてもう片方も変化しているように見えるが原因と結果の関係にない場合

・因果関係を探る3つのチェックポイント

  1. 全くの偶然:地球温暖化が進むと海賊が減る(見せかけの相関)

  2. 第3の変数:体力がある子供は学力がある(体力と学力に両方を影響している親の教育熱心さの要因がある。原因と結果に影響する交絡因子)

  3. 逆因果関係:警察が多い地域には犯罪が多い(犯罪が多いから警察を多く配置している。原因と想定していたものが結果だった場合)


2. 因果関係を証明する

因果関係の証明
「事実」と「起こらなかった反事実(起きなかった場合)」を比較する必要がある(例:広告を出した場合と出さなかった場合(反事実)を比較する)

証明の課題:事実が観察できても、反事実は観察できないことが多い
(因果推論における根本問題)

「地域ごとに分けて推測(地域AとBで広告を出した場合)
地域A:広告あり(売上1300万円) 広告なし(?)
地域B:広告あり(売上1700万円) 広告なし(?)
地域C:広告あり(?)      広告なし(売上1200万円)
地域D:広告あり(?)      広告なし(売上800万円)

→地域AとBの売上平均1500万円と地域CとDの平均1000万円を比較する
→1500-1000=500万円の効果と推定

実際は、売上に影響する変数が広告以外にもあるため比較可能ではない。

エビデンスピラミッド(1が最もエビデンスレベルが高く、4が低い)

  1. メタアナリシス:複数のランダム化比較試験により証明

  2. ランダム化比較試験:ランダムに介入群と対照群に分けて証明

  3. 自然実験・類似実験:世にある実験のような状況を利用して証明

  4. 回帰分析:手元のデータを利用して交絡因子を除いて証明可能


3.ランダム化比較試験

研究の対象と介入していない対象を、無作為に2つのグループを分ける。
(例:生活習慣を検証するために、単純に、検診を受けた人と受けていない人を比較すると、健康への意識が違うため、比較にならない。そのためランダムにグループ化が必要)。ABテストとも言う。

統計的有意の場合、5%が基準になることが多い。
(サイコロを4回連続で表が出る確率が約6%、5回連続の場合は約3%)

4.自然試験

ランダム化試験による実験データが利用できない場合、観察データ(政府の統計データなど)を用いる。比較可能なグループを作り出す方法はランダム化比較試験と同様。

例:男性医師と女性医師の比較。たまたま運ばれた100万人の患者データを利用。医師は患者を選ぶことができないし、患者も医師を指名できない状態。結果は女性医師の方がより密なコミュニケーションをとる傾向により質の高い診療を行っていると言う結論。

5. 類似実験:差の差分析

自然試験も難しい場合は、疑似実験。観察データと統計的手法によって、あたかもランダム化比較試験を模擬しようとするもの。

前後比較では因果関係を示せない(例:広告を出す前と後で比較する方法)
時間によるトレンドを排除できないため。また平均に近づいていく可能性があるため。極端な値の次は平均に近い数値になることが多い。

前後比較を応用して、「介入群の前後」と「対照群の前後」の差をとる「差の差分析」

原因と結果の経済学 〜データから真実を見抜く思考法〜(中室 牧子、津川 友介 著)

・前提条件
その1:介入群と対照群のトレンドが同じであること
その2:介入のタイミングで結果に影響を与える事柄がないこと

A地方もB地方もトレンドが同じである必要がある。そのため、それぞれの過去の売上が同じトレンドかを検証しておく必要がある。また介入中(広告の前後)にも他の要因がないかを確認しておく必要がある。

6. 類似実験:操作変数法

結果には直接影響を与えないが間接的に影響を与える第3の変数を利用する
例:売上には直接影響を与えないが、広告を出すかどうかには影響する変数
(広告出稿キャンペーンなど)

2つの条件
その1:操作変数が原因に影響するが結果には直接影響しないこと
その2:第4の変数が存在しないこと

7. 類似実験:回帰不連続デザイン

ジャンプ(カットオフ値)に注目する回帰不連続デザインの手法。
従業員数が50人以上は広告を出しがちで、49人以下は出さない傾向。
(ギリギリ50人以上の対象と、ギリギリ49人の対象を比較する)

・偏差値の高い学校に入れば、学力は上がるか?
ギリギリ合格したエリート(介入群)とギリギリで落ちて他の学校に入った生徒(対照群)を比較可能とした。
→その後、結果はあまり変わらなかった

・高齢者の医療負担と死亡率
医療費は69歳までは3割であり、70歳からは1割に下がる(当時)
69歳11ヶ月と70歳1ヶ月の人は比較可能とした。
→結果、70歳以降に通院が増加するが、死亡率は変化しない。

8. 類似実験:マッチング法

100店舗のうち、「広告を出している店舗」と「出していない店舗」の中からよく似た属性の店舗を手動で選び出して(マッチングして)比較する。
(店長の平均年齢など。共変量と呼ぶ)

・プロペンシティスコア
複数の共変量を考慮してスコア化する。
例:店長の平均年齢だけでなく、売上、従業員数などの複数を合わせてスコア化して比較に使う

9. 回帰分析

疑似実験ができず、因果関係に使えないが、ありもののデータを利用する回帰分析。(単回帰分析と重回帰分析)。重回帰分析は交絡因子を省いて分析できる。

さいごに

因果推論は歴史は長くない。経済などの社会学では実験が困難だったため。しかし、2000年以降、研究が増えた。

・妥当性と限界
内的妥当性:再度、同じグループに施行すると同じ結果になる
外的妥当性:他のグループに施工しても同じ結果になる

ランダム化比較試験の限界は、費用がかかること。実験するには倫理的にも困難なことも多い。実験の最中に、別影響が起こることもある。

・因果推論の5つのステップ

  1. 原因は何か

  2. 結果は何か

  3. 三つのチェックポイントを確認
    ・偶然性
    ・交絡因子
    ・逆因果関係

  4. 反事実を作り出す

  5. 比較可能になるように調整する