読書備忘録:因果推論入門〜ミックステープ
※ このブログのamazonリンクは、アフィリエイトリンクにより収入を得ています。
※ これは私個人の意見であり、会社の公式見解ではありません。
本の概要
読んだ理由
因果推論をより深く理解するため
読んだ際の関連知識
効果検証入門(通称、緑本)は読了
傾向スコアマッチングやCausal Impactを業務で利用した経験あり
統計検定準1級は取得済み
行列が苦手な文系人間
全体の感想
統計検定準1級の知識があれば、本書の80%程度は理解できるはず。
大学院博士課程の人から見ると入門本かもしれないが、民間企業のデータアナリストから見ると中級から上級の本だと感じた。
民間企業のデータアナリストで簡単に因果推論にふれたい場合は、効果検証入門(通称、緑本)から読んだ方がいいかもしれない。
本の備忘録
序章
株式会社サイバーエージェントのゼミ活動による輪読から本書の翻訳を始めています。
因果推論の手法を、幅広くそして自由に集めています。
第2章 確率と回帰の概要
主に線形回帰の性質を説明している。
前半は統計検定二級レベルの内容だったが、後半は統計検定準一級のレベルを超える内容もあった。
2.25 回帰解剖定理で補助回帰を利用しており、私はよく理解できなかった。
(おそらく私の知識不足が問題。)
余談だが、2-1 ~ 2-16までの内容が理解したい場合は、黒住先生の計量経済学がもっとも理解しやすいと思っている。
第3章 非巡回的有向グラフ
私はDAGについてはじめて学んだため、本書の内容だけではうまく理解できなかった。
こちらのリンクでDAGの基礎を学んだ後に本書を読むと理解できた。
第4章 潜在アウトカム因果モデル
ランダム化推論とFisher's sharp null は初見。
Fisher's sharp nullをざっくり説明すると、、、
グループAとグループBで有意な差があるか調べる際に利用
グループAとグループBにランダムに割り当てた際の統計量の差を全ての組み合わせで計算し、最初のグループAとグループBの統計量の差のp値を計算する。
(全ての組み合わせが難しい場合は、十分に多くの回数で計算する)
ランク関数で有意かどうか確認するイメージ
ノンパラメトリック手法なので、ランダムサンプリングの仮定を満たさない場合でも、ランダム化推論によりp値を算出できる
本書ではRのコード付きで解説されているため、別の分析へ応用もできる。
使い勝手が良さそうなので、いざというときのために覚えておきたい。
第5章 マッチングと層別化
5-1 層別化の喫煙の事例を事前に読んでおくと、アカデミアにおけるバイアスの考え方が学べます。企業のデータアナリストが産学連携などで大学教授と話をする場合、事前に読んでおくと良さそう。
5.3.2 バイアス補正にて、近似マッチングで再利用を行なった場合、行わなかった場合に比べて分散が大きくなることが示されている。
数式で証明されていないが、個人的には現段階では問題ない。
5.3.3 傾向スコア法について、気になったコメントをメモ。
(私はデータアナリストとして民間企業で働いており、傾向スコア法を用いることがありました。)
第6章 不回帰連続デザイン
6.2.4のノンパラメトリックカーネルにて、RDDのカットオフ付近の重み付き回帰を実施。初版のP228に記載されているRのコードを利用すると分析と可視化が可能。
6.2.6の推論にて、カットオフ付近でサンプル数が少ない場合はランダム化推論を利用できると記載がある。
連続性の仮定を破る例
バンド幅と推定値の分散はトレードオフの関係にあり、最適なバンド幅を決めるための手法もあります。論文名は初版 P230で言及されている。
第7章 操作変数
操作変数の歴史から説明あり。個人的には楽しく読めたが、「ビジネスでサクッと使いたい」という人には歴史の説明は不要かもしれない。
過小定式化のついてはP240で説明があった。
P241の計算式から、操作変数法を利用する場合は操作変数と誘導系の説明変数に相関があってはいけないことが証明されている。説明が丁寧でわかりやすかった。
操作変数法は初見だったため関連サイトを探したところ、このサイトがわかりやすかった。
7.7 応用例の「7.7.1 居住する郡にある大学」の事例を読み、操作変数法のメリットを理解できた。
7.8.1 抽選にて、利用処置群のバイアスを除去するために操作変数法を活用した。
7.8.3 と 7.8.4 のバーティク操作変数はきちんと理解できなかったため、こちらのサイトで大枠を把握した。
第8章 パネルデータ
因果推論ではなく、時系列データの固定効果推定量を勉強する章。
第9章 差分の差デザイン
9.5.2で三重差分法(DDD法)についても言及あり。
kim20125の論文でDDD法により効果を測定しており、DDD法の性質が理解できてよかった。
9.6.1~9.6.5のBacon分解定理の数式は(私にとって)理解が難しく、なんとなくイメージを把握した。
第10章 合成コントロール法
合成コントロール法とcausal impactの違いが気になったため調べたところ、こちらのサイトがわかりやすかった。
この記事が気に入ったらサポートをしてみませんか?