![見出し画像](https://assets.st-note.com/production/uploads/images/3951188/rectangle_large_66b45b4c1d516fa0cb19e8fb51d8c847.jpg?width=1200)
[PSPP]回帰分析②
重回帰分析
重回帰分析は、1つの目的変数(従属変数)を複数の説明変数(独立変数)から説明・予測したいときに用いる統計手法です。単回帰分析との違いは、説明変数の数だけです。回帰式は、
となります。ですから、その手順と結果の見方は、単回帰と基本的には同じです。しかし、説明変数の数が増えるため、単純なプロットで全体像を表すことは難しくなります。
重回帰分析の実行
ここでは,単回帰分析で用いた子ども・父親・母親の身長のデータを使い、子どもの身長を父親の身長と母親の身長という2つの変数によって説明する重単回帰分析を実行してみましょう。
・[分析]-[回帰]-[線形]を選択。
・[従属変数(目的変数)]に「子どもの身長」を指定。
・[独立変数(説明変数)]に「父親の身長」と「母親の身長」を指定。
・[OK]をクリック。
出力の見方
「モデル集計(モデル要約)」を見ると、自由度調整済みR2は、0.91であり、子どもの身長は、父親と母親の身長によって9割程度まで説明できていることになります。
「分散分析」では、自由度(2,7)のF値43.94、0.1%水準で有意です(論文やレポートでは、F(2,7)=43.94, p<.01 と表記します)。
「係数」では、非標準化係数のB欄に切片(定数)と説明変数の回帰係数がの推定値が表示されています。
この場合、説明変数が2変数ですから、回帰式はY=a+b1X1+b2X2となり、X1を父親の身長、X2を母親の身長とすると、結果から、子ども身長は、Y=51.832+0.34X1+0.31X2で予測されるということになります。
このデータでは、3変数のすべてが身長(cm)であり、単位が揃っているのでそのままでも比較ができますが、性質の違う変数が説明変数になっている場合は、変数間で影響の大小を比べる場合は、標準化回帰係数を見る必要があります。父親の身長の標準化回帰係数は0.64、母親の身長は0.42なので、父親の身長は、母親の身長の1.5倍ほど子どもの身長に対して影響していると見ることができます。
一番右には、各回帰係数の有意確率が表示されています。この場合、有意確率は0.05以下なので、父親の身長と母親の身長は、ともに子どもの身長に有意な影響を与えていると判断できます。
注意点
変数間の関係を分析手法に、すでに説明した相関があります。相関の強さを表す数値を相関係数といいました。
この相関係数と標準化回帰係数が異符号であり、且つそれぞれが有意な場合があります。これは説明変数間の相関が高すぎる場合に起こる現象で、多重共線性と言います。
多重共線性が発生すると、回帰係数の推定が完全には行えなかったり、信頼性の面で問題が生じたりします。
あまりに相関関係の強い複数の変数が説明変数として加えられているということは、それらは本当に必要なのかという点に疑問があるということでもあります。
たとえば、極端な例ですが、説明変数に「世帯年収」と「世帯主の年収」が入っていたとするような場合、多重共線性が発生する可能性があります。
こうした場合には、因果モデルを見直す必要が出てきます。
対処法としては、①変数を減らす、②因子分析や主成分分析を行い変数をまとめる、などが考えられます。なお、PSPPではできませんが、SPSSでは「共線性の診断」を行うことができます。
また、データをある変数によって分類してみると、変数間の関係が違ってくるケースがあります。例えば、全体としては、図1のような分布になっているものの、年齢別に色分けすると、図2のようになっているような場合です。
このような場合は、年齢群別に因果関係を想定して回帰分析を行うと、より高い説明力を持った結果が得られるはずです。
このとき分類に用いる変数(ここでは年齢群)を調整変数と呼びます。