分析化学の話(8) Z=X+Y:和の確率分布
分析化学とは直接関係ない、わき道にそれた話です。興味のない方は無視してください。
1.共通の疑問
1.1 共通の前提
確率変数(例:分析結果)$${Z}$$が、互いに独立な確率変数(例:測定値、データ)$${X}$$と$${Y}$$の関数になっているとします:
$$
Z = F(X, Y) \quad \quad \quad \quad \quad \quad \quad \quad (1)
$$
1.2 共通の疑問
母集団に対して、誤差(不確かさ)の伝播則[1, 2]に似た次の式が本当に成り立つでしょうか?
$$
\sigma^2= \bigg (\dfrac{\partial F}{\partial x} \bigg )_{\mu_1, \mu_2}^2 \sigma_1^2 + \bigg (\dfrac{\partial F}{\partial y} \bigg )_{\mu_1, \mu_2}^2 \sigma_2^2 \quad \quad \quad \quad (2)
$$
1.3 結論
最初に結論を述べると、
2. 基礎となる式
$${\delta (x)}$$:デルタ関数
3.Z = X + Y
3.1 具体的な問題の設定
$${F(x, y) = x+y}$$だから、式(3)から$${q(z)}$$は次式で与えられます:
$$
q(z) = \displaystyle \int_{-\infty}^\infty \int_{-\infty}^\infty\delta (z-x-y))f(x)g(y) \mathrm{d}x \mathrm{d}y \quad \quad \quad \quad (4)
$$
$$
\sigma^2 = \displaystyle \int_{-\infty}^\infty (z-\mu)^2 q(z) \mathrm{d}z \quad \quad \quad \quad (5)
$$
一方、式(2)の偏微分はというと、
$$
\dfrac{\partial F}{\partial x} = \dfrac{\partial (x+y)}{\partial x} = \dfrac{\partial x}{\partial x} = 1
$$
$$
\dfrac{\partial F}{\partial y} = \dfrac{\partial (x+y)}{\partial y} = \dfrac{\partial y}{\partial y} = 1
$$
だから、式(2)に該当するのは次式です:
$$
\sigma^2= \sigma_1^2 + \sigma_2^2 \quad \quad \quad \quad (6)
$$
式(5)から得られた$${\boldsymbol{\sigma}}$$と、式(6)から得られた$${\boldsymbol{\sigma}}$$とが、どの程度一致するのかというのが問題です。
3.2 正規分布の場合
3.2.1 もとの分布
$$
f(x) = \dfrac{1}{\sqrt{2\pi} \sigma_1} \exp \bigg [ - \dfrac{(x-\mu_1)^2}{2\sigma_1^2} \bigg ]\quad \quad \quad \quad (7)
$$
$$
g(y) = \dfrac{1}{\sqrt{2\pi} \sigma_2} \exp \bigg [ - \dfrac{(y-\mu_2)^2}{2\sigma_2^2} \bigg ]\quad \quad \quad \quad (8)
$$
3.2.2 $${\boldsymbol{q(z)}}$$
式(4)から出発します。ここでは、$${\delta}$$関数の性質を使います[5]:
$$
q(z) = \displaystyle \int_{-\infty}^\infty \int_{-\infty}^\infty\delta (x-(z-y))f(x)g(y) \mathrm{d}x \mathrm{d}y \\
= \int_{-\infty}^\infty f(z-y)g(y)\mathrm{d}y \quad \quad \quad \quad (9)
$$
式(7)、(8)を式(9)に代入すると、
$$
q(z) = \dfrac{1}{2\pi \sigma_1 \sigma_2}\displaystyle \int_{-\infty}^\infty \exp \Big [ -\dfrac{\big ( (z-y)-\mu_1 \big )^2}{2\sigma_1^2 } - \dfrac{(y-\mu_2)^2}{2\sigma_2^2} \Big ] \mathrm{d}y
$$
最終的に次式が得られます[6]:
$$
q(z) = \dfrac{1}{\sqrt{2\pi (\sigma_1^2 + \sigma_2^2)}} \exp \Big [- \dfrac{\big (z - (\mu_1 + \mu_2) \big )^2}{2(\sigma_1^2 + \sigma_2^2)} \Big ] \quad \quad \quad \quad (10)
$$
3.2.3 平均値と標準偏差
この確率密度関数$${q(z)}$$(式(10))は確率変数$${Z}$$に関する正規分布を表しており、
$$
\mu = \mu_1 + \mu_2 \\
\sigma^2 = \sigma_1^2 + \sigma_2^2
$$
が成立します。よって、式(2)が成り立ちます。
3.2.4 グラフ
3.2.5 結果
式(10)や図1の結果から、正規分布の場合、近似なしで式(2)や式(6)が正しいということがうかがえます。
3.3 一様分布(矩形分布)の場合
3.3.1 もとの分布
$$
f(x) = \dfrac{1}{2a_1} \quad \quad(\mu_1 - a_1 \leq x \leq \mu_1 + a_1)\\
f(x)= 0 \quad (x<\mu_1 - a_1, \quad x> \mu_1 + a_1)
$$
$$
g(y) = \dfrac{1}{2a_2} \quad \quad(\mu_2- a_2 \leq y \leq \mu_2 + a_2)\\
g(y)= 0 \quad (x<\mu_2 - a_2, \quad y> \mu_2 + a_2)
$$
3.3.2 前提
$$
\mu_1 \leq \mu_2
$$
3.3.3 $${\boldsymbol{z}}$$に関するパラメータ:
$$
x_1 = \mu_1 - a_1 \\
x_2 = \mu_1 + a_1 \\
y_1 = \mu_2 - a_2 \\
y_2 = \mu_2 + a_2
$$
$$
z_1 = x_1 + y_1 \\
z_2 = x_2 + y_1\\
z_3 = x_1 + y_2\\
z_4 = x_2 + y_2
$$
3.3.4 $${\boldsymbol{q(z)}}$$
i) $${\boldsymbol{z_2 \leq z_3 (a_1 \leq a_2)}}$$の場合:
$$
z_1 < z_2 \leq z_3 < z_4
$$
$$
q(z) = 0 \quad \quad \quad (z < z_1 , \; z\geq z_4)
$$
$$
q(z) = \displaystyle \int_{z_1-x_1}^{z-x_1} f(z-y)g(y)\mathrm{d}y =\dfrac{1}{4a_1 a_2} (z-z_1) \quad \quad \quad (z_1 \leq z < z_2)
$$
$$
q(z) = \displaystyle \int_{z-x_1-2a_1}^{z-x_1} f(z-y)g(y)\mathrm{d}y =\dfrac{1}{4a_1a_2}\times 2a_1 = \dfrac{1}{2a_2} \quad (z_2 \leq z < z_3)
$$
$$
q(z) = \displaystyle \int_{z-x_1-2a_1}^{y_2} f(z-y)g(y)\mathrm{d}y = \dfrac{1}{4a_1 a_2} \Big [ (\mu_2+a_2 - ( z-\mu_1 - a_1) \Big ] \\ = \dfrac{1}{4a_1 a_2} (z_4-z) \quad \quad \quad (z_3 \leq z < z_4)
$$
ii) $${\boldsymbol{z_2 > z_3 (a_1 > a_2)}}$$の場合:
$$
z_1 < z_3 < z_2 < z_4
$$
$$
q(z) = 0 \quad \quad \quad (z < z_1 , \; z\geq z_4)
$$
$$
q(z) = \displaystyle \int_{z_1}^z f(z-y)g(y)\mathrm{d}y =\dfrac{1}{4a_1 a_2} (z-z_1) \quad \quad \quad (z_1 \leq z < z_3)
$$
$$
q(z) = \displaystyle \int_{z_3-2a_2}^{z_3} f(z-y)g(y)\mathrm{d}y =\dfrac{1}{4a_1a_2}\times 2a_2 = \dfrac{1}{2a_1} \quad (z_3 \leq z < z_2)
$$
$$
q(z) = \displaystyle \int_z^{z_4} f(z-y)g(y)\mathrm{d}y =\dfrac{1}{4a_1 a_2} (z_4-z) \quad \quad \quad (z_3 \leq z < z_4)
$$
3.3.5 平均値と標準偏差
i) $${\boldsymbol{z_2 \leq z_3 (a_1 \leq a_2)}}$$の場合:
平均値$${\mu}$$:
$$
\mu = \displaystyle \int_{z1}^{z4} zq(z) \mathrm{d}z = \int_{z1}^{z2} \cdots+\int_{z2}^{z3} \cdots + \int_{z3}^{z4} \cdots = \\
= \dfrac{1}{4a_1a_2} \bigg [ \Big( \dfrac{1}{3}z_2^3 - \dfrac{1}{2}z_1z_2^2 + \dfrac{1}{6}z_1^3 \Big) + a_1( z_3^2 - z_2^2 ) + \Big( \dfrac{1}{6}z_4^3 - \dfrac{1}{2}z_4z_3^2 + \dfrac{1}{3} z_3^3 \Big)
$$
標準偏差$${\sigma}$$:
$$
\sigma^2 = \displaystyle \int_{z_1}^{z_4} (z-\mu)^2 q(z) \mathrm{d}z = \int_{z_1}^{z_4} z^2 q(z) \mathrm{d}z - \mu^2 = \bar{z^2} -\mu^2
$$
ここで、
$$
\bar{z^2} = \dfrac{1}{4a_1a_2} \bigg[ \Big( \dfrac{1}{4}z_2^4 - \dfrac{1}{3}z_1z_2^3 + \dfrac{1}{12}z_1^4 \Big) + \dfrac{2}{3}a_1(z_3^3 - z_2^3) + \\
+ \Big( \dfrac{1}{12}z_4^4 - \dfrac{1}{3}z_4z_3^3 + \dfrac{1}{4}z_3^4 \Big) \bigg]
$$
ii) $${\boldsymbol{z_2 > z_3 (a_1 > a_2)}}$$の場合:
平均値$${\mu}$$:
$$
\mu = \displaystyle \int_{z1}^{z4} zq(z) \mathrm{d}z = \dfrac{1}{4a_1a_2} \bigg [ \Big( \dfrac{1}{3}z_3^3 - \dfrac{1}{2}z_1z_3^2 + \dfrac{1}{6}z_1^3 \Big) + a_1( z_2^2 - z_3^2 ) +\\ + \Big( \dfrac{1}{6}z_4^3 - \dfrac{1}{2}z_4z_2^2 + \dfrac{1}{3} z_2^3 \Big)
$$
標準偏差$${\sigma}$$:
$${\bar{z^2}}$$のみ掲載します。
$$
\bar{z^2} = \dfrac{1}{4a_1a_2} \bigg[ \Big( \dfrac{1}{4}z_3^4 - \dfrac{1}{3}z_1z_3^3 + \dfrac{1}{12}z_1^4 \Big) + \dfrac{2}{3}a_2(z_2^3 - z_3^3) + \\
+ \Big( \dfrac{1}{12}z_4^4 - \dfrac{1}{3}z_4z_2^3 + \dfrac{1}{4}z_2^4 \Big) \bigg]
$$
3.3.6 グラフ
3.3.7 結果
図4の結果は下の表のようでした:
$$
\begin{array}{lc}
\hline \small 方法 & \small \sigmaの値\\
\hline \hline
\small式(2)から計算 & \small 0.064550 \\
\hline \small q(z)から計算& \small 0.064550\\
\hline \small 乱数(ヒストグラム)\quad \quad & \small 0.064620\\
\hline
\end{array}
$$
上表の標準偏差$${\sigma}$$の値を見ると、一様分布(矩形分布)でも式(2)や式(6)、従って誤差(不確かさ)の伝播則が近似なしで成り立ちそうです。
文献とNote
[1] 分析化学の話(6)? - 近似?誤差(不確かさ)の伝播則
[2] 誤差の伝播則、あるいは不確かさの合成は、標準不確かさ$${u}$$を用いて次式のように表されます:
$$
u^2(z)= \bigg (\dfrac{\partial F}{\partial x} \bigg )^2 u^2(x) + \bigg (\dfrac{\partial F}{\partial y} \bigg )^2 u^2(y) \quad \quad \quad \quad (\mathrm{A}1)
$$
標準不確かさは標準偏差と同じような意味を持っています。
[3] 緑川章一、"確率変数の和,積,商,べき乗の分布".
[4] 早川美徳、"Pythonプログラミング(ステップ7・確率密度関数とその計算)" Feb. 15, 2022.
[5] $${\delta}$$関数の性質:
$$
\delta (-x) = \delta (x) \quad \quad \quad \quad (\mathrm{A}2)
$$
$$
\displaystyle \int_{-\infty}^\infty \delta(x-a)f(x) \mathrm{d}x = f(a)\quad \quad \quad \quad (\mathrm{A}3)
$$
[6] 念のため、以下に途中の計算を掲げます。
$$
q(z) = \dfrac{1}{2\pi \sigma_1 \sigma_2}\displaystyle \int_{-\infty}^\infty \exp \Big [ -\dfrac{\big ( (z-y)-\mu_1 \big )^2}{2\sigma_1^2 } - \dfrac{(y-\mu_2)^2}{2\sigma_2^2} \Big ] \mathrm{d}y \\
= \dfrac{1}{2\pi \sigma_1 \sigma_2} \exp \Big [- \dfrac{z^2-2\mu_1 z+\mu_1^2 }{2\sigma_1^2}-\dfrac{\mu_2^2}{2\sigma_2^2} \Big ] \times \\ \times\int_{-\infty}^\infty \exp \Big [ - \dfrac{-2zy+y^2+2\mu_1 y}{2\sigma_1^2} - \dfrac{y^2 - 2\mu_2 y}{2\sigma_2^2} \Big ] \mathrm{d}y
$$
よって、
$$
q(z) = \dfrac{1}{2\pi \sigma_1 \sigma_2} \exp \Big [- \dfrac{z^2-2\mu_1 z+\mu_1^2 }{2\sigma_1^2}-\dfrac{\mu_2^2}{2\sigma_2^2 } + \dfrac{\big ((z-\mu_1)\sigma_2^2+\mu_2\sigma_1^2 \big )^2}{2\sigma_1^2 \sigma_2^2 (\sigma_1^2 + \sigma_2^2)} \Big ]\times \\
\times \displaystyle \int_{-\infty}^\infty \exp \Big [-\dfrac{(\sigma_1^2+\sigma_2^2)\eta^2}{2\sigma_1^2 \sigma_2^2} \Big] \mathrm{d}\eta
$$
ここで、
$$
\displaystyle \int_{-\infty}^\infty \exp \Big [-\dfrac{(\sigma_1^2+\sigma_2^2)\eta^2}{2\sigma_1^2 \sigma_2^2} \Big ] \mathrm{d}\eta = \dfrac{\sqrt{2\pi} \sigma_1 \sigma_2}{\sqrt{\sigma_1^2 + \sigma_2^2}}
$$
だから[8]、
$$
q(z) = \dfrac{1}{\sqrt{2\pi (\sigma_1^2 + \sigma_2^2)}} \exp \Big [- \dfrac{(z-\mu_1)^2 }{2\sigma_1^2}-\dfrac{\mu_2^2}{2\sigma_2^2 } + \dfrac{\big ((z-\mu_1)\sigma_2^2+\mu_2\sigma_1^2 \big )^2}{2\sigma_1^2 \sigma_2^2 (\sigma_1^2 + \sigma_2^2)} \Big ]
$$
指数関数の中を通分すると、
$$
q(z) = \dfrac{1}{\sqrt{2\pi (\sigma_1^2 + \sigma_2^2)}} \times \\\times \exp \Big [- \dfrac{(z-\mu_1)^2 \sigma_2^2(\sigma_1^2 + \sigma_2^2)+\mu_2^2\sigma_1^2(\sigma_1^2 + \sigma_2^2) - \big ((z-\mu_1)\sigma_2^2 + \mu_2\sigma_1^2 \big )^2}{2\sigma_1^2 \sigma_2^2 (\sigma_1^2 + \sigma_2^2)}\Big ]
$$
指数関数の分子を展開すると(若干項を入れ替えて)、次式が得られます:
$$
分子 = \sigma_1^2 \sigma_2^2z^2 - 2(\mu_1 + \mu_2)\sigma_1^2 \sigma_2^2 z + (\mu_1^2 + 2\mu_1\mu_2 + \mu_2^2)\sigma_1^2 \sigma_2^2 \\
= \sigma_1^2 \sigma_2^2 \big (z-(\mu_1 + \mu_2) \big )^2
$$
この分子を先の式に代入すると、
$$
q(z) = \dfrac{1}{\sqrt{2\pi (\sigma_1^2 + \sigma_2^2)}}\exp \Big [- \dfrac{\sigma_1^2 \sigma_2^2 \big (z-(\mu_1 + \mu_2) \big )^2}{2\sigma_1^2 \sigma_2^2 (\sigma_1^2 + \sigma_2^2)} \Big ] = \\
= \dfrac{1}{\sqrt{2\pi (\sigma_1^2 + \sigma_2^2)}}\exp \Big [- \dfrac{ \big (z-(\mu_1 + \mu_2) \big )^2}{2 (\sigma_1^2 + \sigma_2^2)} \Big ]
$$
[7] ISO, Guide to the Expression of Uncertainty in Measurement (1995). 略して、"GUM"。 誤差(不確かさ)の伝播則に従う確率密度関数に添え字"GUM"をつけました。
[8] 森口繁一、宇田川銈久、一松信、数学公式Ⅰ(岩波全書)、岩波書店、1956.
$$
\displaystyle \int_0^\infty e^{-ax^2} \mathrm{d}x = \frac{1}{2} \sqrt{\dfrac{\pi}{a}} \quad \quad (a>0)
$$
【免責事項】本記事は単なるメモとして書かれたもので、その正確性を必ずしも保証するものではありません。本記事によって生じたトラブル、損失、又は損害に対して一切責任を負いません。また、著者が所属する組織とは関係ありません。誤りがあればご指摘ください。クレームはご遠慮ください。