統計学が最強の学問である④:最強の武器「ランダム化」が使えない場合の3つのアプローチ
読書ノート(139日目)
さて今日も昨日に続いて
こちらの本からです。
前回は統計学の中で最強の武器である
ランダム化について、でしたが
今回は、そのランダム化が使えない場合
どのような有効な手法があるのか?
についてでした。
本書では、
「ケースコントロール研究」
「一般化線形モデル」
「傾向スコア」の3つが紹介されていました。
一般化線形モデルは
重回帰分析やロジスティック回帰など
回帰モデルを作成する手法で
奥が深い分、多くの解説がYouTubeや
WEBサイトで紹介されていますので
より詳しく知りたい方は、
ぜひそちらを参照してみてください…!
一方で、傾向スコアという手法は
より理解を深めるためにChatGPTに
「中学生が分かるように教えてください」と
聞いてみました。
なるほど…!
最初から喫煙と肺がんを
直接的に調べるのではなく、
まずは諸条件と喫煙の関係(傾向)を分析し
その傾向が似ている人(スコアが近い)同士
でマッチングをさせる。
そのマッチングをさせることで
喫煙者と非喫煙者の、それ以外の諸条件は
ほぼ同じに揃えることができ、
疑似的にRCTができる!
というカラクリのようです。
ただし、諸条件に合わせたマッチングを
させるとなると、それなりに大きな
サンプルサイズは必要だなとも思い、
その点が懸念点な気もします。
本書も後半は具体的な統計手法の話が
多くなってきて、10年前の自分は
途中から分からなくなってしまい、
きっと読み飛ばしていたのだろう…
と思います😂
そしていま、改めて本書を読んでみて
本業で関わった分析プロジェクトでの手法は
このことだったのか!等と気づきがあったり
自分なりに体系的に整理ができており、
統計を学び始めたこの数年間での成長を
実感することができています。
ちなみに傾向スコアでの分析は、
今まさに私たちのチームが分析中の
「人事施策と従業員エンゲージメントの
効果検証」で使用する予定で、
チーム内では通称"疑似RCT分析"と
呼んでいる"アレ"のことだぁと、
一本の線で繋がりちょっと嬉しく感じました。
そんな小さな発見と成長が本書の随所にあり
今回は読み飛ばすことなく、1つ1つを
理解と整理しながら読めていると感じます。
…ということで、今日はこの辺で!
年末年始休暇で読破する目標だった
「統計学が最強~」シリーズの1冊目は
良いスタートダッシュ(フライング?笑)
が決まり、順調に読み終わりそうです😉
それでは皆さんも
今日明日は素敵なクリスマスを
お過ごしください~!🎄✨