
計量社会学における固定効果モデル分析の使用法に対する問題提起
文責:Belfastは19街区のなか。
はじめに
パネルデータ分析では、一人に対して複数時点に跨って調査したパネルデータをサンプルとして投入する。分析としてクロスセクションデータと同様に回帰分析を行うことが頻発する。しかし最良線形不定推定量(BLUE)を前提としているOLS推定をパネルデータに適用したPooled OLS推定では対応しきれない問題が存在する。そのひとつは内生性の問題であり、説明変数と誤差項が相関している$${(Cov(μ_i,\mathbf{x}_{it})≠0)}$$状態のことであるが、ここで誤差項とは個体内特有効果と誤差項との複合誤差項とする。この個体内特有効果を除去することで内生性にある程度対応し、推定量を得ようとする分析モデルのひとつが固定効果モデルである。このとき操作変数法や重回帰分析では、内生性の発生として交絡を想定しているが、固定効果モデルの場合は選択バイアスを想定している。
さて、この固定効果モデルであるが、計量社会学での用いられ方に違和感を覚える。三輪(2013)によると、固定効果推定はwithin推定とも言い、個体内効果の分析に特化し観察されない異質性を統制できると述べている。この主張部分は確かに正しいのであるが、三輪を始め一部の計量社会学領域では説明変数の増加量と従属変数の増加量の相関を推定するものとして受け入れられている。これについては後述する。まずは固定効果推定はどのようなものであるかを紹介する。
固定効果推定とは
それでは固定効果推定とはどのようなものであるか述べていこう。まず固定効果推定はOLSとは異なり、誤差項$${μ_{it}}$$を個体特有効果$${v_i}$$と誤差項$${ε_{it}}$$に分割し、
$$
μ_i=v_i+ε_it
$$
と記述できる。このとき$${i=1,…,N,t=1,…,T}$$で、$${i}$$は個人を表し $${t}$$は時点を表す。
またこれを用いた回帰式は
$$
y_{it}=α+\acute{β}\mathbf{x}_{it}+v_i+ε_{it} ε_{it}\sim iid(0,σ^2) (1)
$$
である。このとき$${x}$$は説明変数を、$${y}$$は従属変数を、$${α}$$は定数項を、$${β}$$は回帰係数を表す。固定効果推定は個体ごとに変数の平均値を取った回帰式【式(2)】と上記の回帰式【式(1)】との差分を求め、これを固定効果変換【式(3)】と呼ぶが、変換後はOLSで推定量を得る。変換は以下の通りである。
$$
{y}_i=\acute{β}\bar{\mathbf{x}}_i+v_i+\bar{ε}_i (2)
$$
$$
{y}_{it}-{y}_i=(\acute{β}\mathbf{x}_{it}-
{\mathbf{x}}_i)+\bar{ε}_{it}-\bar{ε}_i (3)
$$
このとき$${\bar{y}_{i}=\displaystyle\sum_{t=1}^Ty_{it}/T,\bar{x}_{i}=\displaystyle\sum_{t=1}^Tx_{it}/T,\bar{ε}_{i}=\displaystyle\sum_{t=1}^Tε_{it}/T}$$と定義する。上記からもわかるように、複数時点の平均から各時点の差分を求めているために、時点で変化しない個体特有効果$${v_i}$$を除去することが可能である。また時間で変化しない説明変数も変換後に取り除かれてしまうため、分析に投入することはできない。また固定効果推定量はダミー変数最小二乗(LSDV)推定量に等しいということは本論では重要であろう。これは固定効果変換をおこなわず、回帰式に各個人を表すダミー変数を投入する。
$$
y_{it}=\acute{β}\mathbf{x}_{it}+γ_1D1_{it}+γ_2D2_{it}+\cdots+γ_nDN_{it}+ε_{it} (4)
$$
すると、上記の式(式(4))を立てることができる。このとき観測個体ごとのダミー変数は
$$
D1_{it}={{1}(\mathrm{if} {i}=1)0(\mathrm{if}{i}≠1)}
$$
と定義できる。何も難しいことは述べられておらず、$${i=1}$$か$${i=2}$$かのダミー変数を分析に投入していくだけである。ここでは多重共線性の発生を考慮して、いずれかでも良いのでダミー変数をひとつだけ分析には投入しないことに留意したい。
ここでふたつの推定量が等しくなることを証明しよう。まずLSDV推定量は、
$$
\displaystyle\sum_{i=1}^n\displaystyle\sum_{t=1}^T(y_{it}-\acute{β}\mathbf{x}_{it}-γ_1D1_{it}-\cdots-γ_nDN_{it})^2
$$
$$
=\displaystyle\sum_{i=1}^n(\displaystyle\sum_{t=1}^T(y_{it}-\acute{β}\mathbf{x}_{it}-γ_{it})^2)
$$
また、
$$
\hat{γ}_i=\frac{1}{T}\displaystyle\sum_{t=1}^T(y_i-\acute{β}\mathbf{x}_i)=\bar{y_i}-\acute{β}\bar{\mathbf{x}}_i
$$
とすることができるため、代入して
$$
\displaystyle\sum_{i=1}^n(\displaystyle\sum_{t=1}^T(y_{it}-\acute{β}\mathbf{x}_{it}-\bar{y}_i+\acute{β}\bar{\mathbf{x}}_{it})^2)
$$
$$
=\displaystyle\sum_{i=1}^n\displaystyle\sum_{t=1}^T(y_{it}-\bar{y}_i-\acute{β}(\mathbf{x}_{it}-\bar{\mathbf{x}}_i))^2
$$
となる。これは固定効果変換式【式(3)】を、誤差平方和を求める式へと変形した際の推定量である固定効果推定量と一致する。式(3)より、以下の通りとなる。
$$
ε_{it}-\bar{ε}_{it}=y_{it}-\bar{y_i}-\acute{β}(\mathbf{x}_{it}-\bar{\mathbf{x}_i})
$$
$$
\Leftrightarrow\displaystyle\sum_{i=1}^n\displaystyle\sum_{t=1}^T(ε_{it}-\bar{ε}_{it})^2=\displaystyle\sum_{i=1}^n\displaystyle\sum_{t=1}^T(y_{it}-\bar{y}_i-\acute{β}(\mathbf{x}_{it}-\bar{\mathbf{x}}_i))^2
$$
しかしながら注意したいのは、LSDV推定量と固定効果推定量の誤差項が異なる点である。このため全ての偏回帰推定量は等しいが、定数項は違う値を取る。それも当然の話であり、固定効果推定では固定効果変換で変数の値を小さくしているからである。さらに大きくではないが、$${t}$$値や分散も多少異なる値が推定される。ただLSDVは古典的な方法であり、パネルデータが大きくなると個体分のダミー変数を投入しなければならないので現実的な方法ではない。また奥井(2015)は、固定効果推定は交絡を検討する手法とは違い、変数を追加することをせずに選択バイアスを対処できるという利点があるという。このように、内生性が当たり前のように発生する計量経済学で、ある程度効率よく推定するために発展したモデルだと言える。
計量社会学分析への問題提起
以上では固定効果推定のモデル式と、その推定量がLSDV推定量と等しいことを見てきた。LSDVでは、統制変数として個体を判別するダミー変数を投入しているが、統制変数は説明変数と従属変数の偏回帰係数を推定する際に、影響を排除したいものを設定するということは周知の事実である。そのため固定効果推定とLSDV推定の分析結果の解釈としては、「説明変数$${x}$$の変化量と従属変数$${y}$$の変化量の相関」ではなく、「説明変数$${x}$$と従属変数$${y}$$の相関」というものが正しく、砕けた言い方をするのならば「$${x}$$が大きければ$${y}$$が大きい」や「$${x}$$が大きければ$${y}$$が小さい」となる。では「説明変数$${x}$$の変化量と従属変数$${y}$$の変化量の相関」を推定するにはどうしたら良いのかというと、$${t}$$時点の$${x}$$と$${t+1}$$時点の$${x}$$の差分から、$${t}$$時点の$${y}$$と$${t+1}$$時点の$${y}$$の差分への回帰を求めるのが適切である。
計量社会学や数理社会学での固定効果モデルの用いられ方は、全てと断言することはできないが、その多くが上記の結果からは反しており、繰り返しにはなるが、説明変数の増加量と従属変数の増加量の相関を推定するものとして受け入れられている。
例えば三輪(2013: 235)は「『収入が高くなるほど、主観的地位が高くなる傾向にある』との作業仮説がつくられる」と述べている。またそれを「個人内の変化」と称している。この一文は「変化」を推定することを前提としており、まるで分析では$${t}$$時点と$${t+1}$$時点間で差分を求めているような物言いであるが、実際はそのようなことは無かった。
有田(2010: 2013)や菅・有田(2012)では固定効果モデルを、時点の順序を考慮せず、起点と終点を区別しない、変化に感心の薄い分析だと位置づけている。これは個体内偏差を推定時に用いるというところから結論に至ったとしている。そしてこれらの文献を引用する論文も存在する。
桑名(2020)では個体内効果の推計を固定効果モデルで行っており、「ある個人の中での所得の増減が投票参加意向の積極性に影響することは見受けられない」と考察する一文も見受けられる。また永吉(2017)でも同様の問題を抱えている。
このように一度構築された分析モデルは崩されにくく、なおかつ継承されていくという問題点も存在する。信頼に足るとされ権威のある論文集から発刊されればなおのことだが、正しいとは言えない解釈で分析が行われていくのはとても好ましくない。
今後の展開
本稿では簡易的な形ではあるが、固定効果推定量を数式で提示し、LSDV推定量と等しいことを示した上で、固定効果モデルが変化の推定に特化したモデルではないことを示した。また間違いと言えるような論考を指摘した。本来であればテキストマイニングを用いて大規模な数の論文を分析に用い、「固定効果」や「変化」「個体内」などの単語の関連性を明らかにし、どの程度数理社会学や計量社会学で問題のある解釈がなされているか検討するべきであろうが、その点は今後の課題としたい。
また社会学では統計分析の基礎的な部分が軽視されていると言って良いだろう。これは分析ツールを分析で使用するがあまり、応用にのみ注力してきた結果だと考える。これからは計量分析を行うために数理統計学に立脚した学習が必要とされていくだろう。この問題は固定効果モデル以外にも内在化していると考えられる。加えて、正しい結果の解釈を行っていないということは、内容に価値がないのと同様である。今はまだなされていないが論文の撤回も視野に入れる必要があるのではないだろうか。今後は数理統計学という原点に立ち、計量社会学の分析を検討するべきである。
参考文献
有田伸,2013,「変化の向き・経路と非変化時の状態を区別したパネルデータ分析――従業上の地位変化がもたらす所得変化を事例として」『理論と方法』28(1): 69-86.
――――,2010,「変化の方向とパターンを区別したパネルデータ分析の可能性――従業上の地位の変化がもたらす所得変化を事例として」東京大学社会科学研究所 パネル調査プロジェクト ディスカッションペーパーシリーズ No.35.
桑名祐樹,2020,「政治的資源と投票参加意向の関係――所得と労働時間に着目した個人間・個人内効果の分析」『年報社会学論集』2020(33): 121-132.
三輪哲,2013,「パネルデータの分析の基礎と応用」『理論と方法』28(2): 355-366.
永吉希久子,2017,「非家族ネットワーク喪失の規定要因におけるジェンダー差――固定効果モデルを用いた失業と貧困の効果の検証」『理論と方法』32(1): 114-126.
奥井亮,2015,「固定効果と変量効果」『日本労働研究雑誌』657: 6-9.
坂本和靖,2007,「第8章パネルデータ分析」筒井淳也・平井裕久・水落正明・秋吉美都・坂本和靖・福田亘孝著『Stataで計量経済学入門』ミネルヴァ書房,193-234.
菅万里・有田伸,2012,「失業が健康・生活習慣に及ぼす効果――固定効果モデルと一階差分モデルによるパネルデータ分析」東京大学社会科学研究所 パネル調査プロジェクト ディスカッションペーパーシリーズ No.55.
筒井淳也,2019,「計量社会学と因果推論――観察データに基づいた社会の理解に向けて」『理論と方法』34(1): 35-46.