見出し画像

【統計学】分散の新公式発見?

 このタイトルは今流行りのサムネ詐欺になるかも知れないが、自分自身見たことがないので発表する。
 もしかして、統計数理の方々からすると「当たり前やん」となるかも知れないので書く前から平謝りしておく。ごめんなさい。

経緯

 Welchのt検定に関する記事を書いていて、ふと、中心極限定理central limit theoremの式$${\dfrac{\bar{x}-\mu}{\sqrt{\sigma/n}}}$$を視覚的に捉えられるように出来ないかと考え、試行錯誤している時、「標本分散の定義$${\dfrac{1}{n}\sum_{i=1}^n (x_i-\mu)^2}$$の$${\mu}$$は元ネタは個別値なので、結局、平均値を介在させずに表現できるはず」と考え、やってみたのが次の式である。

分散の新公式

 標本を$${\bm{x}=\{x_1,x_2, \cdots,x_n\}}$$とする。要素数sample size$${n}$$、標本平均$${\mu=\sum_{i=1}^n x_i}$$である。標本分散は、

$$
\sigma^2=\dfrac{1}{n^2}\sum_{i,j   i\lt j}^n(x_i-x_j)^2\\
$$

 上式は、異なる$${i,j}$$の組み合わせの差の二乗の総和を取るということだ。$${(x_1-x_2)}$$と$${(x_2-x_1)}$$は二重計上しない。
 $${i=j}$$の時は当然$${(x_i-x_j)=0}$$なので、同じ組み合わせで異なる順列も勘定に入れ、二重計上も許容し、あらゆる$${i,j}$$をとると考えると、次のように書いても良い。

$$
\sigma^2=\dfrac{1}{2n^2}(x_i-x_j)^2  (for  all  i,j)\\
$$

 この式の意味するところは、要するに、あらゆる標本の2つの要素の組み合わせの差を二乗して足したものの半分が分散ということだ。

 具体的に、$${0,1,2,3,4}$$の5つの標本を図にしてみる。
 まずは、$${x-y}$$。

表 2要素の差
図 2要素の差

 これを二乗したもの。

表 2要素の差の二乗
図 2要素の差の二乗

 この左右に分かれた片方の塊が$${(x_i-x_j)^2  (i \ne j)\\}$$である。合計は$${1^2 \cdot4+2^2 \cdot 3 +3^2 \cdot 2+4^2 \cdot 1=50 }$$なので、これを$${5 \times5}$$の平面に平に均して敷き詰めると、これが分散$${2}$$となる。

分散=要素差の二乗和の平均

一方、通常の分散を求める際の二乗和を絵にすると次のようになる。

通常の分散の計算のための二乗和


 通常の二乗和は1行分だが、平方和と比べ易いよう25マスに揃えている。平たく均すとこうなる。やはり分散$${2}$$となっている。

分散=二乗和の平均

導出

 まず、標本要素が二つの場合を考える。
 分散の早業公式より、平均$${\mu}$$を排除し、要素のみで構成するとこうなる。

$$
\begin{align*}
\sigma^2&=\dfrac{1}{2}\sum_{i=1}^2 x_i^2-\mu^2\\
&=\dfrac{1}{2}(x_1^2 +x_2^2)-\left( \dfrac{x_1+x_2}{2}\right)^2\\
&=\dfrac{1}{2^2}(2x_1^2 +2x_2^2-x_1^2-x_2^2-2x_1x_2)\\
&=\dfrac{1}{2^2}(x_1 -x_2)^2
\end{align*}
$$

 標本要素が3つの場合は次の通り。

$$
\begin{align*}
\sigma^2=&\dfrac{1}{3}\sum_{i=1}^3 x_i^2-\mu^2\\
=&\dfrac{1}{3}(x_1^2 +x_2^2+x_3^2)-\left( \dfrac{x_1+x_2+x_3}{3}\right)^2\\
=&\dfrac{1}{3^2}\{3(x_1^2 +x_2^2+x_3^2)\\&-(x_1^2+x_2^2+x_3^2+2x_1x_2+2x_2x_3+2x_3x_1)\}\\
=&\dfrac{1}{3^2}(2x_1^2 +2x_2^2+2x_3^2-2x_1x_2-2x_2x_3-2x_3x_1)\\
=&\dfrac{1}{3^2}\{(x_1^2 +x_2^2-2x_1x_2)\\&+(x_2^2+x_3^2-2x_2x_3)+(x_3^2+x_1^2-2x_3x_1)\}\\
=&\dfrac{1}{3^2}\{ (x_1 -x_2)^2+ (x_2 -x_3)^2+ (x_3 -x_1)^2 \}
\end{align*}
$$

 うまく行きそうだ。
 頑張って標本要素数が$${n}$$の場合に一般化する。

$$
\begin{align*}
\sigma^2=&\dfrac{1}{n}\sum_{i=1}^n x_i^2-\mu^2\\
=&\dfrac{1}{n}(x_1^2 +x_2^2+ \cdots +x_n^2)-\left( \dfrac{x_1+x_2+ \cdots x_n}{n}\right)^2\\
=&\dfrac{1}{n^2}\{nx_1^2+nx_2^3+ \cdots nx_n^2\\
&-( x_1^2+x_2^2+ \cdots x_3^n-2x_1 x_2-2x_2x_3 - \cdots -2x_n x_1) \}\\
=&\dfrac{1}{n^2}\{(n-1)\sum_{i=1}^n x_i^2-2\sum_{i \ne j}^n x_i x_j \}\\
\end{align*}
$$

 ここで$${\sum_{i \lt j}^n x_i x_j}$$は$${_n C_2=\dfrac{1}{2}n(n-1)}$$項あり、そのうち、例えば$${x_1}$$が関与するのは$${x_1x_2,x_1x_3,\cdots,x_1 x_n}$$の$${n-1}$$項であるから、$${x_1^2}$$は全て$${x_1^2 +x_j^2-2x_1x_j=(x_1-x_j)^2}$$の形に変形され過不足なく消費される。$${x_2,x_3,\cdots,x_n}$$も同様なので、

$$
\sigma^2=\dfrac{1}{n^2}\sum_{i,j   i\lt j}^n(x_i-x_j)^2\\
$$

まとめ

 本稿ではずっと標本という前提での記述を行なってきたが、上式は母集団であっても当然成り立つ。母集団と標本で定義は変わらない。記号を入れ替えるくらいだ。

 この後、この新分散公式と視覚化を用いて、不偏分散の$${1/(n-1)}$$問題、中心極限定理の(標本平均)標準誤差Standard Error$${\dfrac{\sigma}{\sqrt{n}} }$$の説明を試みる。

いいなと思ったら応援しよう!