読書備忘録:因果推論入門〜ミックステープ

※ このブログのamazonリンクは、アフィリエイトリンクにより収入を得ています。
※ これは私個人の意見であり、会社の公式見解ではありません。

本の概要

因果推論とは、ある要因が何を(どれくらい)引き起こしたのかを判断するためのツールです。本書は、因果推論に関する最近までの進展をまとめ、学生や実務家を対象として、因果関係に関する意味のある回答を導き出すために必要な統計的手法を解説していきます。

https://amzn.to/3Sfd5Yd

読んだ理由

  • 因果推論をより深く理解するため

読んだ際の関連知識

  • 効果検証入門(通称、緑本)は読了

  • 傾向スコアマッチングやCausal Impactを業務で利用した経験あり

  • 統計検定準1級は取得済み

  • 行列が苦手な文系人間

全体の感想

統計検定準1級の知識があれば、本書の80%程度は理解できるはず。
大学院博士課程の人から見ると入門本かもしれないが、民間企業のデータアナリストから見ると中級から上級の本だと感じた。

民間企業のデータアナリストで簡単に因果推論にふれたい場合は、効果検証入門(通称、緑本)から読んだ方がいいかもしれない。

本の備忘録

序章

株式会社サイバーエージェントのゼミ活動による輪読から本書の翻訳を始めています。
因果推論の手法を、幅広くそして自由に集めています。

ここで思い出していただきたいのは、原著のタイトルがCausal Imference: Mix tapeであることです。このMixtapeとはアメリカのヒップホップなどの音楽文化において「さまざまな音楽から複数の楽曲を自由に集めて編集した作品」を意味しており、その名の通り、原著が因果推論の古典から現代の様々な手法を幅広く、そして自由に集めて紹介していることを意味します。

第1版 P006

第2章 確率と回帰の概要

主に線形回帰の性質を説明している。
前半は統計検定二級レベルの内容だったが、後半は統計検定準一級のレベルを超える内容もあった。

2.25 回帰解剖定理で補助回帰を利用しており、私はよく理解できなかった。
(おそらく私の知識不足が問題。)

余談だが、2-1 ~ 2-16までの内容が理解したい場合は、黒住先生の計量経済学がもっとも理解しやすいと思っている。

第3章 非巡回的有向グラフ

私はDAGについてはじめて学んだため、本書の内容だけではうまく理解できなかった。
こちらのリンクでDAGの基礎を学んだ後に本書を読むと理解できた。

第4章 潜在アウトカム因果モデル

ランダム化推論とFisher's sharp null は初見。

Fisher's sharp nullをざっくり説明すると、、、

  • グループAとグループBで有意な差があるか調べる際に利用

  • グループAとグループBにランダムに割り当てた際の統計量の差を全ての組み合わせで計算し、最初のグループAとグループBの統計量の差のp値を計算する。

    • (全ての組み合わせが難しい場合は、十分に多くの回数で計算する)

    • ランク関数で有意かどうか確認するイメージ

  • ノンパラメトリック手法なので、ランダムサンプリングの仮定を満たさない場合でも、ランダム化推論によりp値を算出できる

本書ではRのコード付きで解説されているため、別の分析へ応用もできる。
使い勝手が良さそうなので、いざというときのために覚えておきたい。

第5章 マッチングと層別化

5-1 層別化の喫煙の事例を事前に読んでおくと、アカデミアにおけるバイアスの考え方が学べます。企業のデータアナリストが産学連携などで大学教授と話をする場合、事前に読んでおくと良さそう。

5.3.2 バイアス補正にて、近似マッチングで再利用を行なった場合、行わなかった場合に比べて分散が大きくなることが示されている。
数式で証明されていないが、個人的には現段階では問題ない。

5.3.3 傾向スコア法について、気になったコメントをメモ。
(私はデータアナリストとして民間企業で働いており、傾向スコア法を用いることがありました。)

経済学者は、実証実験において観測変数による選択よりも、未観測変数による選択を懸念することが多いため、マッチングを用いた手法にあまり頼りたがらないのです。しかし、読者のあなたが関心を持っている特定のケースで、CIAが成立するかどうかは私自身は中立的です。

第1版 P156

第6章 不回帰連続デザイン

6.2.4のノンパラメトリックカーネルにて、RDDのカットオフ付近の重み付き回帰を実施。初版のP228に記載されているRのコードを利用すると分析と可視化が可能。

6.2.6の推論にて、カットオフ付近でサンプル数が少ない場合はランダム化推論を利用できると記載がある。

連続性の仮定を破る例

1. 割り当てルールが事前に知られている
2. エージェントは調整に関心がある
3. エージェントは調整する時間がある
4. カットオフが、潜在アウトカムを独立してシフトさせる要因に内生的である
5. ランニング変数上に非ランダムな集中(ヒービング)がある

初版 P210

バンド幅と推定値の分散はトレードオフの関係にあり、最適なバンド幅を決めるための手法もあります。論文名は初版 P230で言及されている。

第7章 操作変数

操作変数の歴史から説明あり。個人的には楽しく読めたが、「ビジネスでサクッと使いたい」という人には歴史の説明は不要かもしれない。

過小定式化のついてはP240で説明があった。

P241の計算式から、操作変数法を利用する場合は操作変数と誘導系の説明変数に相関があってはいけないことが証明されている。説明が丁寧でわかりやすかった。

操作変数法は初見だったため関連サイトを探したところ、このサイトがわかりやすかった。

IVとRDDは概念的に非常によく似た戦略なのです。

初版 P251

7.7 応用例の「7.7.1 居住する郡にある大学」の事例を読み、操作変数法のメリットを理解できた。

7.8.1 抽選にて、利用処置群のバイアスを除去するために操作変数法を活用した。

多くのランダム化比較実験において、処置群にランダムに選ばれた人の参加は任意となっていますが、その一方でコントロール群の人々は処置にアクセスできません。(中略)ほとんどの場合において正の選択バイアスにつながります。

初版 P266

7.8.3 と 7.8.4 のバーティク操作変数はきちんと理解できなかったため、こちらのサイトで大枠を把握した。

第8章 パネルデータ

因果推論ではなく、時系列データの固定効果推定量を勉強する章。

この推定量を学ぶもう一つの理由は、時間とユニットの固定効果を持つ線形モデルなどの推定量が「差分の差デザイン」で使用されているからです。

初版 P285

第9章 差分の差デザイン

9.5.2で三重差分法(DDD法)についても言及あり。
kim20125の論文でDDD法により効果を測定しており、DDD法の性質が理解できてよかった。

https://www.researchgate.net/publication/281177582_The_effects_of_adopting_and_using_a_brand's_mobile_application_on_customers'_subsequent_purchase_behavior

9.6.1~9.6.5のBacon分解定理の数式は(私にとって)理解が難しく、なんとなくイメージを把握した。

第10章 合成コントロール法

合成コントロール法とcausal impactの違いが気になったため調べたところ、こちらのサイトがわかりやすかった。

Brodersen et al. (2015) が考案した causal impact フレームワークは, ここまでで紹介した DID, SC 法の考え方を踏まえて, ベイズ構造時系列モデルの特性を取り入れている. 冒頭に挙げたサイトでも causal impact を解説しているが, ここでは因果推論の文脈に沿って改めて説明する.

https://ill-identified.hatenablog.com/entry/2019/10/09/120000

この記事が気に入ったらサポートをしてみませんか?