統計準1級 2017年6月問6[2]解説
問6[2]: あるコミュニティで、最も好きな季節を1つ選ぶ調査を857人に行ったところ、春と回答した割合0.224と秋と回答した割合0.169の差は0.055だった。 この差の標準偏差の推定値を求めよ。
考察:
目的は割合の差の標準偏差の推定値$${SE(\hat p_1 - \hat p_2)}$$を求めると言える。
母集団が同じ中で2つの割合を扱っている。春と回答をする人がいればその分秋と回答する人が減るため、春と回答した割合$${\hat p_1}$$と秋と回答した割合$${\hat p_2}$$は非独立。
必要知識:
V(X-Y)の導出
多項分布での共分散
アプローチ:
$${SE(\hat p_1 - \hat p_2)}$$を求めたいが、まずSEよりもその2乗である$${V(\hat p_1 - \hat p_2)}$$を考えた方が公式に当てはめやすい。
また、春と回答した割合$${\hat p_1}$$、秋と回答した割合$${\hat p_2}$$、それ以外を回答した割合$${\hat p_3}$$という多項分布として問題を捉えた際、春と回答した人数$${X_1}$$と秋と回答した人数$${X_2}$$の間で多項分布の共分散は以下で示せる。
$$
Cov(X_1, X_2) = -np_1p_2 (1)
$$
この式は個人的には暗記もの。
Xが増えれば直感的にYが減るので負の相関があるのでマイナスになるのは明らかで2項分布の分散V(X)=np(1-p)で表せるのと似ているため覚えやすい。
回答比率の共分散は(1)の式から以下のようにして求められる。
$$
Cov(\frac {X_1}{n}, \frac {X_2}{n}) = \frac {1}{n^2}Cov(X_1, X_2)
$$
(1)を代入し、
$$
Cov(\frac {X_1}{n}, \frac {X_2}{n}) = -\frac {p_1p_2}{n}
$$
となる。
これを利用して以下を解く。
$$
V(p_1 - p_2) = V(p_1)+V(p_2) - 2Cov(p_1, p_2) (2)
$$
とかけ、
$$
V(p_1) = V(\frac {X_1}{n}) = \frac {p_1(1-p_1)}{n}
$$
$${\hat p_1}$$は$${\hat p_1}$$の一致推定量でnが十分に大きいので置き換える。
$$
V(p_1) = \frac {p_1(1-p_1)}{n} \approx \frac {\hat p_1(1- \hat p_1)}{n} = \frac {0.224 \times 0.776} {857} \approx 0.00020284
$$
同様に$${V(p_2)}$$を求め、
$$
V(p_2) \approx 0.00016387
$$
$${Cov(p_1, p_2)}$$でも$${p_1}$$に$${\hat p_1}$$、 $${p_2}$$に$${\hat
p_2}$$を代入して
$$
{Cov(p_1, p_2)} = -\frac {\hat p_1 \hat p_2}{n} = −0.00004437
$$
(2)の式に代入し、
$$
V(p_1 − p_2)=0.00045545
$$
から、
$$
SE(p_1 − p_2)=\sqrt{0.00045545} \approx 0.02134
$$
となる。