パターン認識と機械学習 学習ノート - 確率密度


この記事は「パターン認識と機械学習 (丸善出版社)」の読書ノートです。


ここまでは離散的、すなわち有限もしくは可算無限の事象集合の場合における確率を議論してきた。実数のような非加算無限、つまり連続的な事象集合の場合における確率を議論する。

実数値を取る確率変数$${X}$$が区間$${(x, x+\delta x)}$$に入る確率が、$${\lim_{\delta \to 0} p(x)\delta x}$$で与えられるとき、$${p(x)}$$を$${X}$$上の確率密度と呼ぶ。このとき、$${X}$$が区間$${(a,b)}$$にある確率は

$$
p(X \in (a,b)) = \int_b^a p(x) dx
$$

と計算される。

離散的な事象集合のときと違い、連続的な事象集合のことを考える場合はある特定の値を取る確率は0だ。厳密には極限の意味での0なので、限りなく0に近い、となる。実際に確率が0より大きい値を取るのは少なくとも特定の1点についてではなく、非加算無限の部分集合(区間やその和集合)にヒットするかを考えたときになる。

特定の1点にヒットする確率は0ではあるが、それでもある点の方が周囲の点よりも高い確率を出すような違いは存在し、それが確率密度関数$${p(x)}$$の値の意味である。直感的な話になるが、確率密度関数が高い値を取る周辺で確率を測れば高い確率が得られ、低い値を取る周辺ではその逆になる。このようにして連続的な事象集合に対しても確率を議論することができるようになる。

さて、確率密度関数$${p(x)}$$は、連続的な事象集合における各点における確率のようなものなので、次を満たす必要がある。

$$
p(x) \ge 0, \quad \int_{-\infty}^\infty p(x) dx = 1
$$

確率変数$${X}$$が区間$${(-\infty, z)}$$に入る確率$${P(z)}$$は次のように表されるが、これを累積分布関数という。

$$
P(z) \equiv p(X \in (-\infty, z)) = \int_{-\infty}^z p(x) dx
$$

多変数関数について議論しよう。いくつかの連続変数$${x_1, x_2, \cdots, x_D}$$があるとき、これをベクトル$${\bold x \equiv (x_1, x_2, \cdots, x_D)}$$とあらわすとする。このとき$${\delta \bold x}$$を$${\bold x}$$の無限小における変位(2次元の時は面積、それ以上の時は体積となる)を表すとする。この時無限小の変位において、その変位内に$${\bold x}$$が入る確率は$${p(\bold x) \delta \bold x}$$で与えられる。同時に確率密度$${p(\bold x)}$$は次を満たす必要がある。

$$
p(\bold x) \ge 0\\
\int_{\mathbb{R}^D} p(\bold x) \delta \bold x
$$

確率の加法・乗法定理、ベイズの定理は連続変数に対しても同様に適用可能で、特に2変数の場合は

$$
p(x) =\int p(x, y) dy,\ p(y) = \int p(x,y) dx\\
p(x,y) = p(y|x) p(x)\\
p(y|x) = \frac{p(x|y)p(y)}{p(x)}
$$

が成り立つ。

この記事が気に入ったらサポートをしてみませんか?