[Stataによるデータ分析入門]順序ロジット・プロビット・モデル
本稿は、Stataによるデータ分析入門第3版のWEB補論です。
第4章では被説明変数が0/1の値をとる二値選択モデルである、ロジット・モデル、プロビット・モデルを紹介し、逆引き事典では多項選択モデルである、条件付きロジット・モデル、多項ロジット・モデルを紹介しました。ここでは、多項選択モデルの一種である順序ロジット・モデル(Ordered Logit Model)を紹介します。
順序ロジット・モデルとは
順序ロジット・モデルは、被説明変数が、1. 強くそう思う、2.どちらでもない、3. そうは思わない、のように順序を持つ選択肢になっている変数を扱うモデルです。アンケート調査などでは、このような選択肢が用意されていることがよくあります。この変数を通常の最小二乗法で分析すると、第4章のロジット・モデル、プロビット・モデルで紹介したように、理論値が選択肢の範囲を超えたり、また、直線で近似するとモデルのフィットが悪くなるといった問題が生じます。こうした状況で利用できるのが順序ロジット・モデルです。
順序ロジット・モデルでは、たとえば以下の図1のように、説明変数Xが一定の値、X1以下の場合、選択肢1が選ばれ、X1からX2の間なら選択肢2、X2からX3の間なら選択肢3、X3からX4の間なら選択肢4、X4以上なら選択肢5が選択される、といった状態を想定します。
図1では選択肢の選択割合を正規分布の密度関数で描いていますが、これを累積密度関数で表したのが次の図2です。これをロジスティク曲線で近似したのが順序ロジット・モデルです。また、以下の累積密度関数を正規分布で近似することもできて、これを順序プロビット・モデルといいます。第4章で説明したようにロジット、プロビット・モデルは、係数の大きさこと違えど、ほぼ同じ推計結果を導きますが、順序ロジット・モデルと順序プロビット・モデルもほぼ同じ推計結果を導きます。
Stataによる推定方法
早速、事例を見ていきましょう。ここで使用するデータは架空のアンケート調査で、勤労者を対象とした幸福度と収入や雇用形態、性別、子供の数について調査したデータです。幸福度は、1. 幸福ではない、2. どちらかというと幸福ではない、3. どちらともいえない、4. どちらかというと幸福である、5. 幸福である、という序列をもつ選択肢になっています。これを被説明変数にして、説明変数に収入(income)、雇用形態ダミー変数(regular: 正規労働者なら1)、性別(male: 男性なら1)、子供の数(kids)を用います。
上記のファイルをダウンロードし、Windowsであれば、c:\dataフォルダーに保存してあることを前提として議論を進めていきます。
順序ロジット・モデルの推定は、
ologit y x1 x2 x3
のように書くことで推計が可能です。以下のプログラムでologit-sample.dtaを使って順序ロジット・モデルを推計してみましょう。
cd c:\data
use ologit-sample.dta,clear
ologit happiness income age age2 male regular kids
推計結果は以下の通りです。
順序ロジット・モデルではz値が出力されますが、これはt値と同じ読み方ができます。P値(P>|z|)をみていくと、10%未満なのは、income、make、regular、kidsです。所得(income)が高いほど、正社員である場合(regular=1)、子供の数(kids)が多いほど幸福度が高いことがわかります。一方、男性ダミー(male)の係数はマイナスですので女性のほうが幸福度が高いことがわかります。
なお、/cut1~/cut4という係数が表示されていますが、これは、たとえば図1のX1~X4に対応するパラメータです。
Stataによるデータ分析入門第3版のWEB補論の一覧はこちら。