産業保健職のための疫学・統計学‐データの分析手法:重回帰分析-3重回帰分析の結果を理解する1(推定値、t値、p値)

重回帰分析について解説してきたこのシリーズですが、この記事では重回帰分析結果の読み方について解説していきます。

状況設定

あなたは人事労務担当者だとします。会社で実施している「職務満足調査」の結果を職位、年齢、経験年数で分析して、職務満足度を向上するための施策を行う対象を選定するために、職務満足度が低い集団を見つけたいと考えているとします。(注:この記事で利用しているデータは私が作成した架空のデータなので、ここでの分析結果も架空のものです)

あなたなら、どのように調べますか?まずはデータを眺めてみましょう。

それぞれの変数(職務満足、年齢、経験年数、職位)同士の相関を見てみます。

一番左の列の職務満足をみていただくと、年齢よりも経験年数で相関が強そうですね。また職位の列をみると、職務満足は管理職で高そうです。このデータに対して、職務満足を目的変数とした重回帰分析を行ってみます。

重回帰分析をやってみる

データの列が、職務満足、年齢、経験年数、職位なので、今回のデータに線を引くには、「$${職務満足=\beta_0+\beta_1(年齢)+\beta_2(経験年数)+\beta_3(嘱託職員)+\beta_4(非管理職)}$$」という式になります。この式は、

$$
職務満足=\beta_0+\beta_1(年齢)+\beta_2(経験年数) \cdots 管理職の式 \\
職務満足=\beta_0+\beta_1(年齢)+\beta_2(経験年数)+\beta_3(嘱託職員) \cdots 嘱託職員の式 \\
職務満足=\beta_0+\beta_1(年齢)+\beta_2(経験年数) + \beta_4(非管理職) \cdots 非管理職の式
$$

の3つで構成されています。職位が0か1で管理職を除いた非管理職、嘱託職員をあらわす列に疑似的に分けられると考えてください(注)


注:ここで管理職に対応する$${\beta}$$は?と考えられた方、鋭いです。上の3つの式のうち、一番上が管理職の場合のモデル式で、$${\beta_3}$$と$${\beta_4}$$だけ管理職の式を平行移動したものとイメージしてください。


それで、結果が次のようです

この結果からは、次のようなことが読み取れます。

  • 職務満足度は経験年数が1年上がるごとに0.5ずつ増加

  • 年齢は満足度と関係しない

  • 管理職と比較して嘱託職員は10.7満足度が低い

  • 管理職と比較して非管理職は5.9満足度が低い

  • 管理職は少なくとも50.8の職務満足はある(もし年齢、経験年数がともに0だった場合。ありえない仮定ですが。)

この結果、「線を引く」の記事で解説した通り、データに一番近い線を引いた場合の話なので、個々のデータは、この結果通りにはなっていませんが、平均して、今回のデータにこういう傾向があるという風に認識いただけるとよいと思います。

詳細に読む:Estimate

ここからは、重回帰分析の結果をもっと詳しくみていきましょう。まずはEstimatesからです。Estimaets、推定値あるいは係数と呼ばれますが、モデル式の各変数の1の変化が目的変数(今回の場合は職務満足度)の数値をどれくらい変化させるかを表します。

注意が必要なのは、推定値の大きさは、説明変数の単位に依存するということです。どういうことかというと、次のように経験年数を1年単位にした場合(keiken列)と10年単位にした場合(keiken10列)の重回帰分析の結果が、1年単位の経験年数の推定値が0.485951である一方、10年単位の経験年数の推定値が4.859507であるというところです。推定値が10倍違いますが、掛け算で考えると、10年経験年数が違う場合に、0.485951×10と、4.85951×1は同じ結果になります。

なので、推定値が大きいから関係性が強いというわけではないことに注意が必要です。

詳細に読む:t値、p値

次に、各推定値の有意差についてみていきましょう。ここで、t検定の知識が役に立ちます。

t検定の記事を見ていただいた方にとっては、このt値から帰無仮説が正しい場合に、現在観察されている結果が出現する確率としてp値が出るということ、ご理解いただけているかと思います。
重回帰分析のこの表における帰無仮説とは、推定値が0と等しいという帰無仮説です。0と等しければ、どれだけ変数の値が変化したとしても、目的変数に影響はでないはずですね?

年齢変数の結果を見てみましょう。帰無仮説は「推定値はゼロと等しい」です。この帰無仮説に対して、推定値-0.004383がデータから観測される可能性は0.815となります。この0.815というのは、下の図のt分布の青い部分の面積に相当します(ここら辺は難しければ理解できなくてもよいです)。大事なのは、「推定値-0.004383が、帰無仮説が正しい場合に、81.5%の確率ででてくる数字である」ということで、これは、ふつうに起こりえることが起こっている(5%の優位水準を下回っていない)ので、帰無仮説がまあ正しいのではないか?という結論になります。つまり、年齢変数は満足度に影響を与えていないであろうということです。

ということで、ここまでで推定値、t値、p値の三つを解説しました。長くなったので次の記事で、表の中でまだ説明できていないStd.Error(標準誤差)について解説していきます。


いいなと思ったら応援しよう!