SCMでのp値の計算方法(今後拡充
「Synthetic Control Methodでp値をどうやって計算するのか?」についてまとめました。
そのうち(今世紀以内)、拡充させていきます。
はじめに注意点
私のnoteでは「p値」と書きましたし、このnoteのタイトルにもp値と入れています。
しかし、Abadie先生達は2014年の論文では「p-value」と書いていますが、2010年の論文では「the probability ... (長いので略)」と書いています。他でも「the probability ... (略)」という表記を見た覚えがあります。
この値が「p値」なのか、「似ている別の確率」なのか確定していないようです。
SCMでp値を計算する手順
例にとっているのは、Abadie先生達の2010年の論文です。
簡単に(簡単とは言っていない)説明すると、下記の様な感じです。
1.合成カリフォルニア州を別の38州に重みを付けて生成し、カリフォルニア州と比較します(州法施行の1988年以降は激減)。
2.合成元の38州の1つを選びます(例えば、アラバマ州で説明します)。
3.アラバマ州に対して、合成元37州に重みを付けて合成アラバマ州を作り、アラバマ州と比較します。
4.これ(2と3)を合成元の38州全部で行います。
5.39州で州法施行前のRMSPEと州法施行後のRMSPEを算出します。
6.施行後RMSPE÷施行前RMSPEを算出し、大きい順に並べます(元論文p503のFigure8)。
7.並べると、カリフォルニア州は全39州の中で一番大きい。
8.もし、州法に影響がなかったとして、カリフォルニア州が39州で最も大きい数になる確率は1÷39=0.026。
9.よって、p値=0.026と考えられる。
今後の拡充(できたら良いなと思っている)事項
図を入れ、直感的理解を助けたいと思います。
解析コードを入れ、実装したい方の役に立てればと思います。なお、StataとPythonを予定しています。R? 知らない子ですねぇ…。