車を買ったのは偶然?【ロジスティック回帰分析】
はじめに
単回帰分析はアウトカムが量的データの場合に使用することができます。
質的データを量的データにする(ダミー変数を当てはめる)ことで,疑似的に単回帰分析に回すことも可能です。
しかしその時,決定係数の値が良くても解釈が良く分からなくなることがあります。
例えば,買う:1 買わない:0 というダミー変数を当てはめてあげて,年収ごとの車購入データを見てみましょう。(入門統計学/栗原伸一著---286pより編集して掲載)
この回帰直線は
y=-0.58+0.0017*x(xの単位は万円)
ですが,この係数0.0017はどのように解釈できるでしょうか。
年収が100万円増えると車を0.17台多く買う傾向にある…?
この違和感の原因は,ダミー変数の0と1間を直線的に埋めようとしていることです。2値データに単回帰分析が向かないのはこのためです。(単回帰分析が有効なのは結果が量的である場合に限られます)
ロジスティック関数の導入
ロジスティック関数と言われると難しそうに聞こえますが,数式はそれぞれの関係性を抑えておけば大丈夫です。
これから私たちが求めようとするのは,ある確率πです。今回の場合,車の購買行動に関する確率です。ここでは「買う」人に焦点を当てて考えてましょう。
確率πは状況によっていちいち変わります。年収が100万円の人が車を買うのは珍しそうで,1000万円の人はあまり躊躇わなさそうという仮定を立てておきましょう。
ロジスティック関数は,観測値に対する結果の出方(発生確率)を計算しているものと理解してください。π_i の i は添え字で,状況によって式の中の同じ文字が連動して変わるという合図です。
ロジスティック関数:π_i= exp(β0+β1*x_i) / 1+exp(β0+β1*x_i)
この数式はexp(自然対数)が入っているので見づらいですが,これを変形することで
ロジスティック回帰モデル:log(π_i / 1-π_i)=β0+β1*x1
を得ることができます。
この式の右辺に注目してください。単回帰分析の式に似ていませんか。β0はいわゆる切片,β1がいわゆる係数に該当します。
左辺に注目すると,π_iと1-π_iの比率をとっています。π_i はある状況における購買確率でしたね。1-π_iはその反対,つまり購買しない確率です。左辺の π_i / 1-π_i は (購買率)/(非購買率)であると解釈できそうです。logは計算のための道具として使っているので,いったんは考えなくて大丈夫です。
このことから,(購買の比率)=(xによるyへの単回帰分析)の構図と少し似ていることが分かるかと思います。
ロジスティック回帰,意外と親しみやすい形をしていましたね。
関数としてのメリット
何故このようにまどろっこしい計算をするのか,もう少し詳しくお伝えします。
まずはこのロジスティック回帰分析から得られた式の当てはまり具合を見てみましょう。
このようなカーブを描きました。こうすることで,”購買したのかしていないのか”という,イチゼロの状態に近づきます。
もう一つ言うと,「完全に1」「完全に0」という状態にはなりません。
これは対数関数の特徴ですが,それより前に,私たちは確率を考えている,ということを思い出してください。確率が0をとってしまうとこの関数は動かなくなってしまいます。もう少し直感的に言うと「この年収の人は絶対に車を買う/買わない」と断言できるはずがない,ということです。
統計学ではこの考え方を大事にしています。
私たちが統計を利用して考えているのは確率で,それが0か1になってしまうことはあり得ない,と仮定しておくのです。
回帰直線は簡単に0や1の壁を越えてしまうので,それを避けるために様々な関数が生み出されています。
ロジスティック関数はその初歩に当たります。
車と年収の関係
ロジスティック回帰分析にはRというソフトを用いました。
念のため,そこから導出された式を書きます。
π=exp(-6.62+0.01x) / exp(-6.62+0.01x)
ちょっと見づらいですね。これを先ほどと同様にロジスティック回帰モデルに直してみましょう。
log (π_i / 1-π_i)=-6.62+0.01x…①
こうすると少し見やすくなりました。xの係数0.01は正なので,年収と車の購入には正の相関がありそうに見えます。
この式は直線で表すことができます。少し専門的な話ですが,これをロジット変換と呼び,①式をロジット関数と呼びます。また,①式は線形(直線で描き表すことができる)ため,一般化線形モデルとも呼ばれます。このあたりの説明をいつか詳しくしたいと思います。
蛇足ですが,①式を「年収が1万円上がると0.01の確率で車を購買する度合いが上がる」と解釈してもいいのでしょうか。
データを解釈するうえで重視したいのは,相手のニーズです。この情報をどのように伝えるか考えるのが,データ解析における私たち人間の仕事になります。
今回の場合,閾値(しきいち)を設定してあげるといいでしょう。
例えば,確率が0.5%以上ならば「買う」,以下ならば「買わない」と一旦断言してみます。
そうすると年収600万円の消費者が現れたとき,その消費者の購買行動を予測することが可能です。
データは分析したその後も考えることがたくさんあって楽しいです。
最後まで読んでいただきありがとうございました!
参考文献
入門統計学(第2版)-検定から多変量解析・実験計画法・ベイズ統計学まで-
著:栗原伸一
発行年:2021年7月
発行所:株式会社オーム社
#統計学 #ロジスティック回帰分析 #ロジット関数 #ダミー変数