【STATA Techs-007】2値サンプルt検定
◯データセット
◯使用コマンド◯
◯お題◯
戸主の所得(「income_master」)について,エリア(「area」)によって差はあるだろうか。大都市(1,2)とそれ以外の都市(3,4)規模における母平均の差の有無について、検定しなさい。
=2群の平均に差があるかt検定をしなさい
◯検定◯
今回は、大都市(1,2)とそれ以外の都市(3,4)に「area」を分けた上で、「income_master」を実数にとったt検定を行います。まず、「area」と「income_master」を要約してみましょう。「income_master」は実数で、「area」は数字自体には意味を持たない質的変数なので、前者はsummarizeコマンド、後者はtableコマンドを使用します。
sum income_master
tab area
「income_master」は外れ値もないのでこれでいいとして、「area」は大都市とそれ以外の都市に分かれていませんので、分ける必要があります。「area」の1と2を0にまとめ、3と4を1にまとめた新変数「area2」を生成しましょう。
gen area2 = area
recode area2 1=0 2=0 3=1 4=1
このコマンドでokです。確認しましょう。
tab area2
さて、大都市とそれ以外の都市という2値変数の準備もできました。それではt検定を実行しましょう。
ttest income_master, by(area2)
なんか、めっちゃ出てきましたね!ひとつずつ見ていきましょう。
まず、グループが大都市とそれ以外の都市の2値で分かれているのが確認できます。そのグループに対応した観測数(obs)、平均(mean)、標準誤差(Std.Err)、標準偏差(Std.Dev.)、95%信頼区間(95% Conf. Interval)が返されています。
次に、「conbined」の行は、上が2値で分かれていたものを統合した時の数値です。「diff」の行はそれとは逆に、差をとったものになります。t検定は実数の平均の差が統計的に有意かを検定するものです。
では最も肝心のP値はというと、Ha: diff != 0をみます。すると、「Pr(|T| > |t|) = 0.0509」ですので、差は10%水準で有意ということになります。
======
本田恒平(Kohei Honda)
一橋大学大学院経済学研究科博士後期課程(政治経済学、労働政策)
▼質問やご意見等はコメントかホームページのフォームから▼