[Stataによるデータ分析入門]変量効果モデルとハウスマン検定によるモデル選択
※本コラムは、紙幅の関係で「Stataによるデータ分析入門第3版」で紹介できなかった内容を紹介しています。
「Stataによるデータ分析入門第3版」では、最近は固定効果を使うのが定番となり、変量効果モデルはあまり使われなくなったことを説明しました。より詳しい説明は、ソウル国立大学の奥井先生の論考がわかりやすいかと思います(無料で読めます)。
奥井亮「似て非なるもの 計量経済学 固定効果と変量効果」日本労働研究雑誌, No.667, 2015年4月号
しかし、まだまだStataで変量効果モデルを使ったりハウスマン検定を実施する機会があるかもしれません。そこで、第2版の事例を使って、Stataによる変量効果モデルとハウスマン検定の操作方法について紹介します。
変量効果モデルの概要
まず、パネルデータによる回帰モデルを以下のように表します。
Yit = a + b*Xit + Zi + uit
Yが被説明変数、Xが説明変数、iは個体、tは時間を示します。Zは分析者には観察できない個体属性で、uは誤差項です。固定効果モデルではXとZが相関することを許容しますが、変量効果モデルではXとZが相関しないと仮定し、Zを確率的な要因として誤差項uに含めて推定します。こちらの推定方法を変動効果モデル(Random Effect Model)と呼びます。変動効果モデルの詳細についてはテクニカルになるので割愛しますが、その特徴をまとめておきます。
実際の推定に際して、変量効果モデルと固定効果モデルのいずれを用いるべきかは、ハウスマン検定(Hausman Specification Test)を用います。ハウスマン検定は、「変量効果モデルが望ましい」という仮説を検証します。言い換えれば、「変量効果モデルが望ましい」という仮説(帰無仮説)が妥当性を持つ確率を計算し、その確率が5%、あるいは10%を上回るとき、「変量効果モデルが妥当である」と判断し、確率が10%、あるいは5%を下回るとき、「変量効果モデルは誤り(固定効果モデルが正しい)」(対立仮説)と判断します。
都道府県データによる労働生産性の分析
生産性は、生産の効率性を示す指標であり、企業家にとっても政策担当者にとっても、企業や産業の競争力を図る重要な指標です。ここでは、都道府県別の生産量(Y)、労働(L)、資本ストック(K)のデータを用いた労働生産性(Y/L)に関するパネルデータ分析を紹介しながら、モデル選択(固定効果モデル v.s. 変量効果モデル)のハウスマン検定の見方・使い方を説明します。ここでは、対数をとった労働生産性(Y/L)を被説明変数、対数をとった資本装備率(K/L)を説明変数とする以下のような回帰モデルを考えます 。資本装備率とは、労働者あたりの資本ストックであり、生産現場が、どの程度、機械・設備集約的かを示す指標です。
log(Y/L) = a + b log(K/L) + u
なお、実際の学術研究では、資本装備率に加えて、IT機器装備率や社会資本ストック、知識技術ストックを説明変数に追加した研究などに活用されています。使用するデータは、prod-prefec.dtaで、prefecture (都道府県番号), year(年次), y (県内総生産), k(資本ストック), l(労働者数)の変数が含まれています。時点は1993年と1994年の2時点で、yとlについては、47都道府県のデータが含まれていますが、kについては意図的に沖縄県のデータが除去してあり、分析に利用できるのは46都道府県、2時点のデータで92サンプルとなります。以下はStataのプログラム例です。
cd c:\data
use prod-prefec.dta,clear
sum prefecture y k l
gen yl=log(y/l)
gen kl=log(k/l)
* 通常の回帰モデル
reg yl kl
tsset prefecture year
* 固定効果モデル
xtreg yl kl,fe
* ハウスマン検定の準備
est store fixed
* 変量効果モデル
xtreg yl kl,re
* ハウスマン検定の結果を表示
hausman fixed
xttest0
このプログラムを実行することで、通常の回帰モデル、固定効果モデルと変量効果モデルの3つの推計結果が得られます。なお、ylは、対数をとった労働生産性、klは対数をとった資本装備率です。
通常の回帰モデル
固定効果モデル
変量効果モデル
3つの結果で、いずれもbの推計値、すなわちklの係数は異なっていることがわかります。
通常の回帰モデル:0.525
固定効果モデル :0.241
変量効果モデル :0.383
変量効果モデルの係数は、通常の回帰モデルと固定効果モデルの中間の値になっていることがわかります。では、どの結果を採用すべきでしょうか? まず、通常の回帰モデルと固定効果モデルについては、前述のとおり、固定効果モデルの推定結果の下に表示される、"F test"に注目します(四角で囲まれた箇所)。右端の確率(Prob > F)は、「個体ダミー変数の係数が全てゼロ」という仮説が正しい確率で、今、確率は0となっていますので、「個体ダミー変数の係数はゼロではない」、すなわち、個体ダミー変数を追加したほうがいいと判断します。
次に、固定効果と変量効果の比較ですが、これはHausman(ハウスマン)検定を用います。
Hausman検定
Hausman検定は、「固定効果モデルよりも変量効果モデルが正しい」という仮説を検定します。この仮説が正しい確率が著しく小さければ(仮説が棄却されれば)、固定効果モデルが正しいと考えます。
プログラムの書き方は、まず、固定効果モデル(xtregでfeオプションをつける)のコマンドの下に、"est store [任意の変数名]"と記入して、固定効果モデルの結果をStataに記憶させておきます。次に、変量効果モデル(xtregでreオプションをつける)を推定ます。その直後に"hausman [任意の変数名]"と入力します。
xtreg y x1 x2 x3, fe
est store fixed
xtreg y x1 x2 x3, re
hausman fixed
なお、下線部分には適当な変数名を指定します。
以下は、労働生産性に関する分析のハウスマン検定の結果です。四角で囲った箇所が、「固定効果モデルよりも変量効果モデルが正しい」という仮説が正しい確率です。
この確率が10%、あるいは5%を下回るとき、「変量効果モデルは誤り(固定効果モデルが正しい)」(対立仮説)と判断します。今回の場合、確率は1.1%と、非常に小さな値なので、「固定効果モデルが正しい」と判断します。
最後に、変量効果モデルと通常の回帰モデルの比較に関する検定を紹介しておきましょう。
Breusch and Pagan検定
Breusch and Pagan検定は、「変量効果モデルよりもプーリング回帰モデルが正しい」という仮説を検定します。仮説が正しいといえる確率が著しく小さければ(仮説が棄却されれば)、変量効果モデルが正しいと考えます。この検定は、以下のように、変量効果モデルを推定した後、"xttest0"と入力します。
xtreg y x1 x2, re
xttest0
結果を確認しておきましょう。次の結果は、労働生産性と資本装備率の変量効果モデルの推定後に"xttest0"コマンドを入力して得られた Breusch and Pagan検定の結果です。四角で囲んだ箇所が、「プーリング回帰モデルが正しい」という仮説が正しいといえる確率です。確率は0%なので、「プーリング回帰モデルより変量効果モデルが正しい」と判断します。
まとめると、F検定から、プーリング回帰モデル<固定効果モデル、ハウスマン検定から変量効果モデル<固定効果モデル、Breusch and Pagan検定から、プーリング回帰モデル<変量効果モデル、という結果が得られたので、固定効果モデルの結果が望ましいと判断します。
モデル選択の検定
パネルデータの回帰モデルである、プーリング回帰モデル、固定効果モデルと変量効果モデルの3つモデルを相互に比較するには、3つの検定があります。その関係を図を使って示すと以下のようになります。
Stataによるデータ分析入門第3版のWEB補論の一覧はこちら。