data:image/s3,"s3://crabby-images/5a582/5a58240e103eb483b1bc6cb7861e5e1528a45ee8" alt="見出し画像"
書記が数学やるだけ#602 ポアソン回帰
ポアソン回帰についての実装例を示す。
問題
data:image/s3,"s3://crabby-images/3fd56/3fd56913c13f1c313a5d3a031d119c5c9413e281" alt="スクリーンショット 2022-10-23 11.45.23"
説明
ポアソン回帰では,対数関数を連結関数としてポアソン分布で推測する。よく似たものとして対数正規モデルがあるが,連結関数が対数関数である点は同じだが,正規分布により推測する点が異なる。
data:image/s3,"s3://crabby-images/34ba0/34ba0be276a38805696a6d137d1dd8e751a68862" alt="スクリーンショット 2022-10-23 11.12.35"
ポアソン分布ではなさそうな場合のうち,過分散が疑われる場合には負の2項分布モデルを用いることがある。
data:image/s3,"s3://crabby-images/f3f1f/f3f1f9ba499d80bdd3c22f7b7dc7945b9363f2eb" alt="スクリーンショット 2022-10-23 11.13.14"
使い分けについては以下を参照:
解答
import math
import numpy as np
import scipy.stats as stats
import statsmodels.api as sm
import statsmodels.formula.api as smf
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
# チップのデータセット
df = sns.load_dataset("tips")
df
data:image/s3,"s3://crabby-images/9abf8/9abf89aea46843c9f524eb78ad6e29d7a43650ed" alt="スクリーンショット 2022-10-23 11.14.54"
可視化をするにはSeabornのjointplotが便利である。
sns.set(style="darkgrid")
sns.jointplot(x="total_bill", y="tip", data=df,
kind="scatter",
xlim=(0, 60), ylim=(0, 12),
color="b",
height=7);
data:image/s3,"s3://crabby-images/74ded/74dedd141e2763898b7522a0f6b042e4cb0069a3" alt="画像5"
ここで標本のパラメータを求めておく。
mean = df['tip'].mean()
var = df['tip'].var()
scale = math.sqrt(var)
print("平均:", mean, "分散:", var, "標準偏差:", scale)
平均: 2.9982786885245902 分散: 1.9144546380624725 標準偏差: 1.3836381890011826
説明変数の分布を見ると,裾が長い分正規分布には見えない気もする。正規分布とポアソン分布でのサンプリングを行なってみると,その違いが出てくる。
norm = np.random.normal(mean,scale,244)
poisson = np.random.poisson(mean,244)
bins = np.linspace(-4, 12, 10)
plt.hist(norm, bins=bins, alpha=0.6, label="noem")
plt.hist(poisson, bins=bins,alpha=0.6, label="poisson")
plt.legend()
data:image/s3,"s3://crabby-images/53f27/53f27a3bb39976b3c5d4fccdb92bcaf69c993831" alt="画像6"
正規分布でのフィッテイングが妥当かどうか,いくつか試験してみる。
#Q-Qプロット,正規分布ではなさそう
stats.probplot(df['tip'], dist="norm", plot=plt)
data:image/s3,"s3://crabby-images/70be0/70be0903308b67ea78549f7a908b9582e21b37fb" alt="画像7"
#シャピロ・ウィルク検定,帰無仮説「正規分布である」が棄却される
stats.shapiro(df["tip"])
ShapiroResult(statistic=0.897811233997345, pvalue=8.20057563521992e-12)
これらより,単純に正規分布でフィッティングするのは危ういかもしれない。
では,実際にいくつかモデルを立ててみる。まずは正規線形モデル,ここで定数項なしに設定していることに注意(会計を払わない人にチップはないだろう)。
#正規線形モデル,定数項なし
y = df['tip']
x = df['total_bill']
link = sm.families.links.identity()
family = sm.families.Gaussian(link)
model_norm = sm.GLM(y, x, family=family)
results_norm = model_norm.fit()
results_norm.summary()
data:image/s3,"s3://crabby-images/dfffa/dfffa25e2d51fcffc5ea9b2952e2c73bbe96ee06" alt="スクリーンショット 2022-10-23 11.28.20"
この予測値を可視化してみると,割といい当てはまりに見える。
y_hat_norm = results_norm.predict(x)
plt.plot(x, y, "o")
plt.plot(x, y_hat_norm, "*", color="r")
plt.xlabel('x (total_bill)'), plt.ylabel('y (tips)')
plt.xlim(0, 60), plt.ylim(0, 12)
plt.show()
data:image/s3,"s3://crabby-images/1bfbb/1bfbbc3b7c99dc2824ea19e8499a872bf99a60ac" alt="画像9"
次にポアソンモデルを示す。
#ポアソンモデル
link = sm.families.links.log()
family = sm.families.Poisson(link)
model_poisson = sm.GLM(y, x, family=family)
results_poisson = model_poisson.fit()
results_poisson.summary()
data:image/s3,"s3://crabby-images/c59cf/c59cf3ad538b41bfa234547dbd912bdc432c91b3" alt="スクリーンショット 2022-10-23 11.39.59"
y_hat_poisson = results_poisson.predict(x)
plt.plot(x, y, "o")
plt.plot(x, y_hat_poisson, "*", color="r")
plt.xlabel('x (total_bill)'), plt.ylabel('y (tips)')
plt.xlim(0, 60), plt.ylim(0, 12)
plt.show()
data:image/s3,"s3://crabby-images/22aaa/22aaaf226ea254f9877698651bb7c8c8f230caff" alt="画像11"
対数正規モデルも組んでみる。
#対数正規モデル
link = sm.families.links.log()
family = sm.families.Gaussian(link)
model_lognorm = sm.GLM(y, x, family=family)
results_lognorm = model_lognorm.fit()
results_lognorm.summary()
y_hat_lognorm = results_lognorm.predict(x)
plt.plot(x, y, "o")
plt.plot(x, y_hat_lognorm, "*", color="r")
plt.xlabel('x (total_bill)'), plt.ylabel('y (tips)')
plt.xlim(0, 60), plt.ylim(0, 12)
plt.show()
data:image/s3,"s3://crabby-images/7d25e/7d25e91aca541808702c4f705c1ac5d9594bc584" alt="画像12"
本記事のもくじはこちら: