標本分散と不偏標本分散の違いを可視化してみる
統計学を勉強していると、「不偏推定量」という言葉を目にする。
特に、「不偏分散」は有名。
$${n}$$個のデータ$${X_1,X_2,\cdots,X_n}$$に対して分散を計算する。というと以下の式が思い浮かぶ。
$$
\frac{1}{n}\sum_{i=1}^n (X_i - \bar X)^2
$$
対して、不偏分散$${S^2}$$は以下で定義される
$$
S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar X)^2
$$
$${n}$$で割るのではなく、$${n-1}$$で割っている。
不偏推定量とは
不偏推定量というのは、
推定量の期待値が真値に一致するような推定量
の事。
例えば、標本平均$${\bar X}$$は母平均$${\mu}$$の不偏推定量であることが知られている
標本平均が母平均の不偏推定量であることを示す
母平均$${\mu}$$の確率分布に、独立同一に従う$${n}$$個のデータ$${X_1,X_2,\cdots,X_n}$$による、標本平均$${\bar X}$$の期待値は
$$
\begin{align}
E(\bar X) &= \frac{1}{n}\sum E(X_i) \\
&= \frac{1}{n}\cdot n\mu \\
&= \mu
\end{align}
$$
となる。
期待値が真値と一致するということは、不偏推定量は(概ね)真値と一致していると言ってしまっても良い。
不偏分散の導出
母平均$${\mu}$$、母分散$${\sigma^2}$$の確率分布に独立同一に従う$${n}$$個の確率変数$${X_1,X_2,\cdots,X_n}$$について、不偏分散を求めてみる。
まずは、分散としてすぐに思いつく以下の式
$$
V = \frac{1}{n}\sum_{i=1}^n (X_i - \bar X)^2
$$
の期待値を確認する。
まず事前準備として、以下の等式を確認しておく
$$
\begin{align}
\sum_{i=1}^n (X_i - \bar X)^2 &= \sum_{i=1}^n (X_i - \mu + \mu-\bar X)^2 \\
&= \sum_{i=1}^n \{(X_i - \mu) - (\bar X-\mu)\}^2 \\
&= \sum_{i=1}^n \left\{(X_i - \mu)^2 + (\bar X-\mu)^2 -2(X_i - \mu) (\bar X-\mu)\right\} \\
&= \sum_{i=1}^n (X_i - \mu)^2 + n(\bar X-\mu)^2 -2 (\bar X-\mu) \sum_{i=1}^n (X_i - \mu) \\
&= \sum_{i=1}^n (X_i - \mu)^2 + n(\bar X-\mu)^2 -2n (\bar X-\mu)^2 \\
&= \sum_{i=1}^n (X_i - \mu)^2 - n(\bar X-\mu)^2
\end{align}
$$
すると、
$$
E(V) = \frac{1}{n}\sum E\{(X_i-\mu)^2\} - E\{(\bar X-\mu)^2\}
$$
となることが分かる。
右辺第1項は$${X_i}$$の分散の定義式、
第二項は$${\bar X}$$の分散の定義式なので
$$
\begin{align}
E(V) &= \sigma^2 - \frac{1}{n}\sigma^2 \\
&= \frac{n-1}{n}\sigma^2
\end{align}
$$
となる。
つまり、普通の分散$${V}$$は、
母平均の$${\frac{n-1}{n}}$$倍の値が出やすい。ということである。
言い換えれば、普通の分散$${V}$$は母平均を過小評価した推定値となる。
この結果から不偏推定量は
$$
\begin{align}
E(V) &= \frac{n-1}{n}\sigma^2 \\
\frac{n}{n-1}E(V) &= \sigma^2
\end{align}
$$
であることが分かる。
つまり、
$$
\frac{n}{n-1}V = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar X)^2
$$
が母分散$${\sigma^2}$$の不偏推定量となる。
$${n-1}$$の部分はこうやって得られる
分散と不偏分散の違いを比較
母分散が分かっている状態で、サンプルサイズ$${n}$$を適当に振り、分散と不偏分散の違いを比較してみる。
平均170, 分散100の正規分布からサンプル$${n}$$を得て、同じサンプルに対して分散と不偏分散を算出する。
これを1000回繰り返し箱ひげ図としてまとめたものを以下に示す。
中央値(黄色のライン)を見てもらうとわかる通り、
真値(100)に対し、分散は過小評価する傾向にある。
サンプルサイズが増えるにつ入れ、真値に近づいていく。
一方、不偏分散はサンプルサイズに限らず概ね真値あたりで安定している。
サンプルサイズが小さい間は、不偏分散の有利性が際立つ。
しかし、サンプルサイズが大きくなるにつれ両者に大きな差はみられなくなる。
実は、分散$${V = \frac{1}{n}\sum(X_i-\bar X)^2}$$は、最尤推定量と呼ばるもので、サンプルサイズ$${n}$$が十分に大きければ、不偏推定量同様に、真値に一致する(一致性を持つ。一致推定量である。)ことが知られている。
実際に、サンプルサイズを増やしてみると
段々と幅が(ひげが)短くなり、真値(100)付近に値が集中することが分かる。
つまり、
サンプルサイズが小さいうちは不偏分散が推定には向いているが
サンプルサイズが大きければどちらを用いても大差ない。
と言える。
Pythonコード
今回のグラフ作成に当たってはPythonを使用した。
コードは以下