見出し画像

重回帰分析とは?(手法解析から注意点まで)

■はじめに
この記事はYouTubeにアップした動画との連動記事です。
というよりむしろ動画がメインで、こちらの内容は概要レベルのものとなっております。
内容をしっかり理解するためにも、ぜひ動画と合わせて本文を読んでみてください。

■重回帰分析とは?
重回帰分析とは、ある結果(目的変数)を説明・予測するために、2つ以上の関係がある変数(説明変数)を使い数式化する統計手法のことです。

スクリーンショット 2020-12-01 14.36.02

例えば家賃を予測したい時に、駅からの距離や部屋の広さ、築年数を基に予測しようと考えます。

この家賃のことを目的変数、駅からの距離や部屋の広さなど、家賃を決めるのにどれくらい影響があるか、という数値のことを説明変数と言います。
影響する数値を偏回帰係数と呼び、それに切片が組み合わさると家賃が予測できます。

こういう関係を図で表しているものをパス図と呼びます。

スクリーンショット 2020-12-01 14.41.05

数式化すると上記の図のようになります。


ちなみに説明変数が1つだけの場合は、単回帰分析と言います。
(例)身長と体重など

目的変数が2値の質的変数の場合はロジスティック回帰分析で扱えます。
(例)合格、不合格など

回帰分析は統計分析の手法の中で最もよく使われると言われます。

■ビジネスでの利用シーン
1.結果(目的変数)を関連がある変数を使って予測する

スクリーンショット 2020-12-01 18.15.40

例えば新店舗の売り上げを広告費や通行量、店員数から予測しようといった時や、取引先のA社からの売り上げがどれくらい上がってくるかということを、提案数や値引率、満足度から予測するといった使い方があります。
これらは図の枠で囲ってある目的変数を予測したい時に利用します。

2.どの説明変数が、どれくらい効いているかを把握する

スクリーンショット 2020-12-01 18.16.03

どの要素の満足度が総合満足度に効いているかを確認したり、どういうイメージを持っているとブランドの好感度に影響するかを把握するために使います。
マーケティングリサーチではこちらの方が多く登場します。

■使うデータ

重回帰分析で使うデータは、目的変数が数量データです。
説明変数は数量も質的も大丈夫です。
質的データはダミー変数にします。


■結果の見方
①どういう式になったか(切片と偏回帰係数)

結果1

まず最初にどういう式になったかを確認するために切片と偏回帰係数を見ます。
上記の図の枠で囲われた部分です。

式

そのデータを、上記の例のように偏回帰係数を式に直します。


②回帰式の説明力がどのくらいか

結果2

次に回帰式の説明力を見るために自由度調整済み決定係数を確認します。

上記の例の場合は枠で囲まれた補正 R2が「0.8090」なので80%となります。
これは相関係数の二乗で求められ、0~1の値になります。

③それぞれの説明変数に意味があったか

結果3

最後にそれぞれの説明変数に意味があったかを確認するためP値を見ます。
(切片のP値は見なくても大丈夫です)

一般的には10%か5%(0.05)を超えると統計的に意味がない、と言われています。
今回の上記の例だと平均再生数は見なくても大丈夫、ということです。

■重回帰分析をする際の注意点
①どの説明変数が一番効いているかを確認する時は、標準化(平均0、標準偏差1)した「標準偏回帰係数」で!

注意①

上記の図だと一見「えばしん出演」の影響が1番大きいように見受けられますが、これは単位が揃っていないからです。
確認するときは必ず単位を揃えましょう。

上記の例も標準化して単位を揃えるとこうなります。

注意②

②回帰分析でわかることは、あくまで変数間の共変性、相関。

必ずしも因果関係そのものとは限りません。
特に説明変数ごとのアクションをするときは注意してください。


その他注意点
以下の注意点に関しては、結果を見るだけの場合はとりあえず理解しなくても大丈夫です。

①説明変数がたくさんあるときの選択方法は、仮説ベースか探索ベース。  
 探索ベースのときはステップワイズ法※が多い。
 ※統計ソフトが一定の基準(AICなど)で自動選択

②説明変数の選択時には多重共線性(マルチコとも言う)※を気にしている。
 ※説明変数同士の相関が強いと、回帰係数の推定が不安定になり、
 偏回帰係数の正負の符号が逆転したりする問題。

■重回帰分析についてまとめ

◆重回帰分析の利用シーン

・結果(目的変数)を関連がある変数を使って予測する。
 →新店舗の売上を「広告費」、「通行量」、「店員数」を使って予測など。

・どの説明変数が、どれくらい効いているかを把握する。
 →総合満足度には、どの要素の満足度が一番効いているかなど。

◆重回帰分析の結果の見方
「偏回帰係数」、「自由度調整済み決定係数」、「P値」を確認する。
・どういう回帰式になったか。
・今回の説明変数でどれくらい説明できるか。
・それぞれの説明変数に意味があるか。


YouTubeでは更に詳しく、わかりやすく解説しています。
ぜひ記事と併せて御覧ください。


この記事が気に入ったらサポートをしてみませんか?