![見出し画像](https://assets.st-note.com/production/uploads/images/132780815/rectangle_large_type_2_7a436268871f0c922e06077117bcc0fe.jpeg?width=1200)
[Rによるデータ分析入門]過剰識別性検定について
本コラムでは、操作変数法を利用する際にしばしば使われる過剰識別性検定をRで実施する方法について紹介します。
本コラムは「Rによるデータ分析入門」のWEBサポートページとして作成されました。
過剰識別性検定とは
過剰識別性検定は操作変数の外生性を検定するものです。外生性とは「操作変数と誤差項に相関がない」ことであり、具体的には残差と操作変数の相関を調べる検定のことです。
過剰識別性検定は内生変数の数よりも操作変数の数のほうが多いときのみ利用可能です。過剰識別性検定はSargan検定とも呼ばれますが、第二段階目の推計における残差 ($${ u_{i}^{2} }$$) を被説明変数として、説明変数に操作変数と第二段階目で用いた内生変数以外の説明変数を導入します。第二段階の推計において操作変数Zの影響はXの予測値で説明されているはずなので、説明されなかった部分(残差($${ u_{i}^{2} }$$)と操作変数Zは相関しないと考えられます。残差とZが相関しないことが期待されるので仮説検定は「相関しない」という帰無仮説を棄却しないことが望ましい状況になります。ですので検定統計量のP値が10%以上の値になることが望ましくなります。
Rでの操作方法
この検定統計量は、etable関数のオプションで対応が可能です。fitstat=~sargan+sargan.pというオプションを付けるとSarganの検定統計量とp値が表示されます。
事例紹介
ここではNunn (2007)によるアフリカの奴隷貿易と経済成長に関する分析で使用されたデータでSargan検定の結果をみてみましょう。
被説明変数Yはサブサハラ諸国の2000年時点の一人あたりGDP、説明変数Xには18世紀の各国の「面積当たりの奴隷の輸出量」です。このXとYの関係を分析するにあたり、第三の要因の影響を考慮する必要があります。当時、奴隷貿易が活発に行われた国は農業生産力が高かったことが知られています。農業生産力は気候や地形に由来するので、Yである2000年時点の一人あたりGDPにも影響している可能性があり、「農業生産力」はXにもYにも影響する第三の要因となりうると考えられます。
そこで、Nunn (2008)では「各国から主要な奴隷市場までの距離」を操作変数とした推計を提案しています。当時の主要な奴隷市場はインドや紅海沿岸、北アフリカ、南米に位置しており、これらは奴隷貿易量Xには影響するものの、現在の一人あたりGDPには影響しないと考えられます。
以下、使用データとスクリプトの例です。
library(fixest)
#6.4. 奴隷貿易と経済成長:操作変数が複数ある場合
dataf <-readr::read_csv("slave_trade.csv")
result_ols <- fixest::feols(lnpcgdp2000~ln_export_area,data=dataf)summary(result_ols)
result_iv <- fixest::feols(lnpcgdp2000~1|ln_export_area~atlantic_dist+indian_dist+saharan_dist+red_sea_dist,data=dataf)
fixest::etable(result_ols,result_iv,stage=1:2, fitstat=~ivf+ivf.p+sargan+sargan.p,se.below=TRUE)
以下が推計結果です。result_olsは最小二乗法の推計結果、隣のresult_iv.1は操作変数法の第一段階、result_iv.2は第二段階です。赤線部分がSargan検定の検定統計量です。
![](https://assets.st-note.com/img/1696212565131-ljnjnWCXaG.png?width=1200)
今回の分析では二段階目の推計の下方にSarganの検定統計量が出力されています。P値は18%と10%を上回っていますので「残差と操作変数は相関無し」の仮説を棄却できません。よって操作変数の外生性は満たされていると解釈します。
★本書のWEBサポートの一覧は以下を参照してください。