【統計学】確率変数の再生性の直感的把握1:畳み込みの本質
本稿の目的
それぞれ正規分布$${N(\mu_X,\sigma_X^2),N(\mu_Y,\sigma_Y^2)}$$に従う確率変数$${X,Y}$$の和$${Z=X+Y}$$を新たな確率変数とした場合、その分布はやはり正規分布で、その平均と分散は両者の和となる。
$${Z \sim N(\mu_Z,\sigma_Z^2)=N(\mu_X+\mu_Y,\sigma_X^2+\sigma_Y^2)}$$
このよう変数の和を新たな変数としても分布の種類が維持されることを「再生性を有する」という。
差をとった場合$${Z=X-Y}$$は、平均は差、分散は和になる。やはり正規分布を維持する。
$${Z \sim N(\mu_X-\mu_Y,\sigma_X^2+\sigma_Y^2)}$$
正規分布とポアソン分布が再生性を持つことが知られている。
その証明に必要な「畳み込み」という概念は、初級者用教科書では割愛されていることが殆どだ。
本稿は厳密な証明を目的としない。畳み込みの概念と二項係数=組み合わせ$${_n C_k}$$の再生性を直観的に把握し、その極限としての正規分布が再生性を有することを初心者が得心することを目的とする。
畳み込みの定義
$${*}$$は、畳み込みを表す演算記号である。
畳み込み積分の定義。
$$
(f*g)(x)\coloneqq \int^{\infty}_{-\infty} f(t) g(x-t) dt
$$
離散関数の場合は数列表記が可能。
$$
(a*b)_x \coloneqq\sum_{全てのk} a_k b_{x-k}
$$
これらの式を読み解くのは容易ではない。
まず、畳み込みの概念を把握するためにサイコロを用いることにしよう。
確率変数を「足す」をサイコロで把握
確率変数を「足す」とは
はじめに、確率変数を「足す」ことの意味を把握しよう。
サイコロを2つ用意する。
サイコロ$${A}$$、$${B}$$の出目(確率変数)をそれぞれ$${X}$$と$${Y}$$、出目の出る確率(確率函数)をそれぞれ$${P^A_X}$$、$${P^B_Y}$$とする。
$${P^A_X=P^B_Y=\dfrac{1}{6}}$$、変数に依存しない定数、即ち一様分布となる。
ここで、サイコロ$${A}$$と$${B}$$の目の合計$${Z=X+Y}$$を確率変数とし、その確率函数$${P^C_Z}$$を考えてみよう。
具体的に考えた方が分かりやすい。
例えば、$${Z=X+Y=5}$$となる確率はいくらか?
答えは、$${5=X+Y}$$が実現する組み合わせは$${(X,Y)=(1,4),(2,3),(3,2),(4,1)}$$の4通り、全ての組み合わせは36通りなので、確率は$${\dfrac{4}{36}=\dfrac{1}{12}}$$となる。
この様に、確率変数を「足す」とは、足した結果を新たな変数とし、その確率函数を計算することを意味するのである。これは重要な指摘である。
畳み込まれた変数の確率函数の計算
$${X+Y}$$は$${2}$$から$${12}$$の11通りの値を取る。結果、それぞれの値が実現する組み合わせの数を$${36}$$で除した数値が当該値の出る確率となる。
上図で、例えば$${X+Y=2}$$となるのは左下の赤色1箇所なのに対して、$${X+Y=5}$$となるのは緑色の4箇所となる。
式で書くと、次の様になる。
$$
P^C_5 =(P^A*P^B)_5 =\sum P^A_k P^B_{5-k}
$$
即ち、
$$
P^C_5 =P^A_1 P^B_{5-1}+P^A_2 P^B_{5-2}+P^A_3 P^B_{5-3}+P^A_4 P^B_{5-4}
$$
有り得る全ての場合において$${P^A P^B=\dfrac{1}{36}}$$であるから、$${X+Y=5}$$を実現する組み合わせ数$${4}$$を乗じた$${\dfrac{4}{36}}$$がその確率となる。
畳み込みの本質
$${X+Y=5}$$の結果を維持するには、$${Y=5-X}$$を常に満たしつつ確率函数の乗算を行う必要がある。一方が増えたらその分もう一方は減らなくてはならない。結果ありきで変数を動かすと言っても良い。
それが、離散函数の畳み込みの定義式$${(a*b)_x =\sum_{全てのk} a_k b_{x-k}}$$で、総和を取るためのダミー変数である$${a}$$の添字$${k}$$に対し、$${b}$$の添字が$${x-k}$$となっている部分に表れている。
この様にして、2変数の和$${Z}$$の確率函数を計算する。これが、畳み込みの本質である。
畳み込み函数の形
X+Yを軸に、頻度を上図で表した。表にすると以下の様になる。
$$
\begin{array}{c:ccccccccccc}
X+Y & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 & 11 & 12\\
\hline
頻度& 1& 2 & 3 & 4 & 5 & 6 & 5 & 4 & 3 & 2 & 1\\
\hline
P^{C}_{Z} & \frac{1}{36} & \frac{2}{36} & \frac{3}{36}& \frac{4}{36}& \frac{5}{36}& \frac{6}{36}& \frac{5}{36}& \frac{4}{36}& \frac{3}{36}& \frac{2}{36}& \frac{1}{36}
\end{array}
$$
$${Z}$$の離散型確率函数$${P^{C}_{Z}}$$を敢えて$${Z}$$の函数として記述すると、
$$
P^{C}_{Z}=6-|Z-7| (2\le X \le 12)
$$
又は場合分けして、
$$
\begin{align*}
P^{C}_{Z}&=Z-1(2\le X \le 7)\\
P^{C}_{Z}&=13-Z(7\le X \le 12)
\end{align*}
$$
となる。
一様分布函数同士を畳み込んだ結果は明らかに一様分布ではない。即ち一様分布は再生性を有しないことが分かる。
次回は、同じことを二項係数=組み合わせ$${_n C_r}$$ で行う。
結果、二項係数は再生性を有する。これはもっと指摘されるべき事実だと思う。