SCMでのp値の計算方法（今後拡充

2020年7月24日 00:42

「Synthetic Control Methodでp値をどうやって計算するのか？」についてまとめました。

そのうち（今世紀以内）、拡充させていきます。

はじめに注意点

私のnoteでは「p値」と書きましたし、このnoteのタイトルにもp値と入れています。

しかし、Abadie先生達は2014年の論文では「p-value」と書いていますが、2010年の論文では「the probability ... （長いので略）」と書いています。他でも「the probability ... （略）」という表記を見た覚えがあります。

この値が「p値」なのか、「似ている別の確率」なのか確定していないようです。

例にとっているのは、Abadie先生達の2010年の論文です。

簡単に（簡単とは言っていない）説明すると、下記の様な感じです。

1．合成カリフォルニア州を別の38州に重みを付けて生成し、カリフォルニア州と比較します（州法施行の1988年以降は激減）。

2．合成元の38州の1つを選びます（例えば、アラバマ州で説明します）。

3．アラバマ州に対して、合成元37州に重みを付けて合成アラバマ州を作り、アラバマ州と比較します。

4．これ（2と3）を合成元の38州全部で行います。

5．39州で州法施行前のRMSPEと州法施行後のRMSPEを算出します。

6．施行後RMSPE÷施行前RMSPEを算出し、大きい順に並べます（元論文p503のFigure8）。

7．並べると、カリフォルニア州は全39州の中で一番大きい。

8．もし、州法に影響がなかったとして、カリフォルニア州が39州で最も大きい数になる確率は1÷39=0.026。

9．よって、p値=0.026と考えられる。

図を入れ、直感的理解を助けたいと思います。

解析コードを入れ、実装したい方の役に立てればと思います。なお、StataとPythonを予定しています。R？　知らない子ですねぇ…。