ヤンキーでもわかる不偏分散のn-1の直感的説明

2023年7月11日 23:04

数式の証明では分かったような分からないような。。。

不偏分散の分母に$${n-1}$$が使われている
数式の証明は下記のように至る所で紹介されているが

ヤンキーに数式の証明を見せても理解してくれないだろう

そこで今回はヤンキーでも感覚的に
不偏分散の分母に$${n-1}$$をなぜ使うのかを理解できるよう
厳密的な証明はさておき、解説していく

母分散よりも標本分散が小さい感覚

母集団の平均（母平均）は母集団を知り尽くした人しか知り得ない（そんな人はいない）値なので一般的には未知の値なので、標本から計算された標本平均と母平均との間には必ずズレがある
このズレが不偏分散の$${n-1}$$を引き起こしている原因である

シンプルな例を用いて
母集団と標本の偏差平方和を求めよう

標本分散と母分散の計算からする

標本を$${1,2,4,5}$$とすると
標本平均は3になり、これの分散は

$$
\sum_{1}^{4} (x_i - 3)^2 \\
= 10
$$

母平均は未知の値だが、仮に3.1くらいだとすると

$$
\sum_{1}^{4} (x_i - 3.1)^2 \\
= 10.04
$$

少し小さくて2.9くらいだとすると

$$
\sum_{1}^{4} (x_i - 2.9)^2 \\
= 10.04
$$

いずれにしても、
標本の偏差平方和よりも値が大きくなる

なぜなら標本平均は標本から作られている平均なので
そこからの偏差（平均からの差）平方和が1番小さいのは当たり前だからだ

偏差平方和が小さいと
分散の値も小さくなるので

$$
\frac{1}{n} \sum_{i}^{n}(x_i - \bar{x})^2 \leq \frac{1}{n} \sum_{i}^{n}(x_i - \mu)^2
$$

となる

標本分散が母分散よりも小さいのは、標本平均の値を固定しているから

標本の取り方によって標本平均$${\bar{x}}$$の値は変動するが
標本の分散を計算するときには標本平均の値を固定して計算してしまっていた
本当は標本平均も散らばっているのだから
その分の分散が失われている！
なので標本平均の分散を足して補完してあげよう

標本平均の分散の値を計算してみる
母分散を$${\sigma}$$とすると

$$
Var(\bar{X}) \\
= Var(\frac{1}{n}\sum_{i}^{n}X_i) \\
= \frac{1}{n^2}Var(\sum_{i}^{n}X_i)\\
= \frac{1}{n^2} n Var(X_i)\\
= \frac{1}{n} \sigma^2
$$

なので、このばらつきの分を
標本平均の値を固定して計算した分散に当てはめれば
母分散の等式が作れる

整理すると不偏分散を導くことができる

$$
\frac{1}{n} \sum_{i}^{n}(x_i - \bar{x})^2 + \frac{1}{n} \sigma^2 = \frac{1}{n} \sum_{i}^{n}(x_i - \mu)^2 \\
{}\\
\frac{1}{n} \sum_{i}^{n}(x_i - \bar{x})^2 = (1-\frac{1}{n})\sigma^2 \\
{}\\
\frac{1}{n-1}\sum_{i}^{n}(x_i - \bar{x})^2 = \sigma^2
$$