見出し画像

統計学が最強の学問である④:最強の武器「ランダム化」が使えない場合の3つのアプローチ

読書ノート(139日目)
さて今日も昨日に続いて
こちらの本からです。

第5章:ランダム化ができなかったらどうするか
・疫学の進歩が証明したタバコのリスク
・「ケースコントロール研究」の登場
・1948年から1952年にかけて、イギリス中の病院から
 1465名の肺がんによる入院患者を見つけ、
 彼らの性別・年代・社会階層や居住地域と喫煙歴の有無を調査。
 同時に喫煙以外の性別・年代・社会階層や居住地域について
 同様の条件を満たす肺がん以外の疾患で
 入院している患者を同数見つけ調査した
・喫煙以外にも肺炎にかかった経験の有無、
 住宅の暖房設備の種類など肺がんのリスク要因と考えられる項目も
 調査したが、最も大きな関連性が示唆されたのが喫煙だった
・男性1357名の肺がん患者のうち非喫煙者は7名(0.5%)しかおらず、
 一方で非肺がん患者の非喫煙者は61名(4.5%)とその9倍もいた。
・女性についても肺がん患者の非喫煙者108名中40名(37%)に対し、
 非肺がん患者の非喫煙者は108名中59名(54.6%)と多かった
・この結果に対してカイ二乗検定を実施するとp値はともに1%未満で、
 誤差とは考えにくいレベルで肺がん患者の喫煙率が高かった

・「揃えきれていない条件」にどこまでこだわるべきか
・2000年に世界で最も影響力のある医学雑誌
 「New England Journal of Medicine」にて、
 このような疫学研究はランダム化比較実験に比べて劣るのかについて、
 90年代前半の主要な論文を比較検討した結果、
 「ランダム化比較実験とあまり結果に差がない」とされた。
・つまり、ランダム化比較実験が難しい状況では比較的低予算では
 スピーディーにデータを収集できる疫学的手法を用いることが
 現実的には有用であるといえる

・限りなくランダム化に近づく「傾向スコア」
・1983年、統計学者であるローゼンバウムとルービンにより
 「傾向スコア」という手法が発表された
・傾向スコアとは、興味のある二値の説明変数について
 「どちらに該当するか」という確率のこと
・同じ傾向スコアで比較を行うとは、すなわち
 「性別や居住地域など他の条件で言うとタバコを吸わないはずなのに、
  なぜかタバコを吸っている人」と
 「他の条件で言うとタバコを吸わないはずだし、
  やっぱりタバコを吸わない人」の比較を行うこと
・主に疫学分野でランダム化が困難な因果関係の特定に重宝されてきたが、
 今や政策や教育の評価にもよく使われるようになっている

前回は統計学の中で最強の武器である
ランダム化について、でしたが
今回は、そのランダム化が使えない場合
どのような有効な手法があるのか?

についてでした。

本書では、
「ケースコントロール研究」
「一般化線形モデル」
「傾向スコア」
の3つが紹介されていました。

一般化線形モデルは
重回帰分析やロジスティック回帰など
回帰モデルを作成する手法で
奥が深い分、多くの解説がYouTubeや
WEBサイトで紹介されていますので
より詳しく知りたい方は、
ぜひそちらを参照してみてください…!

一方で、傾向スコアという手法は
より理解を深めるためにChatGPTに
「中学生が分かるように教えてください」と
聞いてみました。

なるほど…!
最初から喫煙と肺がんを
直接的に調べるのではなく、
まずは諸条件と喫煙の関係(傾向)を分析し
その傾向が似ている人(スコアが近い)同士
でマッチングをさせる。

そのマッチングをさせることで
喫煙者と非喫煙者の、それ以外の諸条件は
ほぼ同じに揃えることができ、
疑似的にRCTができる!
というカラクリのようです。

ただし、諸条件に合わせたマッチングを
させるとなると、それなりに大きな
サンプルサイズは必要だなとも思い、
その点が懸念点な気もします。

本書も後半は具体的な統計手法の話が
多くなってきて、10年前の自分は
途中から分からなくなってしまい、
きっと読み飛ばしていたのだろう…
と思います😂

そしていま、改めて本書を読んでみて
本業で関わった分析プロジェクトでの手法は
このことだったのか!等と気づきがあったり
自分なりに体系的に整理ができており、
統計を学び始めたこの数年間での成長を
実感することができています。

ちなみに傾向スコアでの分析は、
今まさに私たちのチームが分析中の
「人事施策と従業員エンゲージメントの
 効果検証」で使用する予定で、
チーム内では通称"疑似RCT分析"と
呼んでいる"アレ"のことだぁと、
一本の線で繋がりちょっと嬉しく感じました。

そんな小さな発見と成長が本書の随所にあり
今回は読み飛ばすことなく、1つ1つを
理解と整理しながら読めていると感じます。

…ということで、今日はこの辺で!
年末年始休暇で読破する目標だった
「統計学が最強~」シリーズの1冊目は
良いスタートダッシュ(フライング?笑)
が決まり、順調に読み終わりそうです😉

それでは皆さんも
今日明日は素敵なクリスマスを
お過ごしください~!🎄✨



いいなと思ったら応援しよう!