パターン認識と機械学習 学習ノート - 期待値と分散


この記事は「パターン認識と機械学習 (丸善出版社)」の読書ノートです。


確率を含む操作において最も重要なものは期待値を求める操作である。今、確率分布$${p(x)}$$が離散的であるとき、ある関数$${f(x)}$$の期待値とは次のように定義される関数$${\mathbb{E}[f(x)]}$$のことである。

$$
\mathbb{E}[f(x)] \equiv \sum_{x} p(x) f(x)
$$

確率分布$${p(x)}$$が連続的であるときは、関数$${f(x)}$$の期待値は積分によって定義される。

$$
\mathbb{E}[f(x)] \equiv \int p(x) f(x) dx
$$

期待値とはどういった意味を持つ値か?
確率分布が離散的であれ、連続的であれ、十分大きな有限個$${N}$$に対してサンプリング集合$${\{x_i\}_{i=1}^N}$$を取ったときの関数$${f(x)}$$の平均値に期待値は近似される。つまり

$$
\mathbb{E}[f(x)] \simeq \frac{1}{N} \sum_{i = 1}^N f(x_i)
$$

が成り立つ。これはサンプリング数を無限にすると、厳密に期待値に一致する。つまり

$$
\mathbb{E}[f(x)] = \lim_{N \to \infty} \frac{1}{N} \sum_{i = 1}^N f(x_i)
$$

が成立する。要するに期待値とは無限回の試行ができたと仮定したときの平均値、つまり1回あたりに期待できる関数$${f}$$の値として説明することができる。

なお、期待値は多変数関数$${f(x,y)}$$に対して考えることもある。この時はどの変数に対して期待値を取るかを明示する添え字を付加する。つまり

$$
\mathbb{E}_x [f(x,y)] = \lim_{N \to \infty} \frac{1}{N} \sum_{i = 1}^N f(x_i, y)
$$

である。上記の場合、$${\mathbb{E}_x[f(x,y)]}$$は$${y}$$の関数になることに注意する。

与えられた確率分布が条件付き分布であった場合も同様に期待値を考えることができる。この時の期待値を条件付き期待値という。

$$
\mathbb{E}[f(x,y) | y] \equiv \sum_x p(x|y) f(x,y)\\
\mathbb{E}[f(x,y) | y] \equiv \int p(x|y) f(x,y) dx
$$

期待値が定義されると分散という尺度を定義することができる。これは関数$${f}$$の値がその平均値$${\mathbb{E}[f(x)]}$$の周りでどのくらいずれるか、ばらつくかの尺度となっている。

$$
var[f] \equiv \mathbb{E}[(f(x) - \mathbb{E}[f(x)])^2]
$$

なお、分散は定義から次のように書き直すことができる。

$$
\begin{array}{l}
var[f(x)]  \\
= \mathbb{E}[(f(x) - \mathbb{E}[f(x)])^2] \\
= \sum_x p(x) (f(x) - \mathbb{E}[f(x)])^2\\
= \sum_x p(x) \{(f(x))^2 -2\mathbb{E}[f]f(x) +(\mathbb{E}[f(x)])^2\} \\
= \sum_x p(x) (f(x))^2 -2\mathbb{E}[f(x)]\{\sum_x p(x) f(x)\} + (\mathbb{E}[f(x)])^2\\
= \mathbb{E}[f(x)^2] -2(\mathbb{E}[f(x)])^2 + (\mathbb{E}[f(x)])^2\\
= \mathbb{E}[f(x)^2] - (\mathbb{E}[f(x)])^2
\end{array}
$$

特に確率変数$${x}$$自身の分散を考える($${f}$$が恒等関数の時)と次のように書ける。

$$
var[x] = \mathbb{E}[x^2] - \mathbb{E}[x]^2
$$

最後に共分散という尺度を定義しよう。2つの確率変数$${x,y}$$の間の共分散$${cov[x,y]}$$とは、次のように定義される。

$$
cov[x,y] \equiv \mathbb{E}_{x,y} [(x-\mathbb{E}[x])(y-\mathbb{E}[y])] = \mathbb{E}[xy] - \mathbb{E}[x]\mathbb{E}[y]
$$

確率変数$${x,y}$$は独立であるときに、共分散が0であることが証明できるため、共分散はある種相関の尺度として考えることができる。
実際確率変数が独立であれば$${\mathbb{E}[xy] = \mathbb{E}[x]\mathbb{E}[y]}$$であるから、共分散は0になる。
逆に待遇を取ると、共分散が0でなければ、確率変数$${x,y}$$は独立でないことが明らかになる。

この記事が気に入ったらサポートをしてみませんか?