見出し画像

PRML自習ノート - chapter 9 -

Exercise (9.1) - (9.10)

Exercise (9.1)

目的関数$${J}$$は

$$
\begin{align*}
J=\sum_{n=1}^N\sum_{k=1}^Kr_{nk}\|\mathbf{x}_n-\boldsymbol\mu_k\|^2
\end{align*}
$$

で与えられる。
$${r_{nk}=0\ {\rm or}\ 1, \|\mathbf{x}_n-\boldsymbol\mu_k\|^2\geq 0}$$より,$${J\geq 0}$$である。

$${\{\boldsymbol\mu_k\}}$$を固定した$${\{r_{nk}\}}$$の更新は

$$
\begin{align*}
r_{nk} = \begin{cases}
1 &\text{if } k=\argmin_{j}\|\mathbf{x}_n-\boldsymbol\mu_j\|^2 \\
0 &\text{otherwise }
\end{cases}
\end{align*}
$$

に従い,各$${n}$$において最も小さい$${\|\mathbf{x}_n-\boldsymbol\mu_j\|^2}$$のみが$${J}$$に寄与するよう$${\{r_{nk}\}}$$を決めるため,$${\{r_{nk}\}}$$の更新によって$${J}$$は減少する。

$${\{r_{nk}\}}$$を固定した$${\{\boldsymbol\mu_k\}}$$の更新は

$$
\begin{align*}
\boldsymbol\mu_k = \frac{\sum_{n=1}^Nr_{nk}\mathbf{x}_n}{\sum_{n=1}^Nr_{nk}}
\end{align*}
$$

に従う。
これは,

$$
\begin{align*}
\frac{\partial J}{\partial \boldsymbol\mu_k} &=0
\end{align*}
$$

の解であり,$${\{r_{nk}\}}$$が固定された状態での$${J}$$の最小値を与える。
最小値が存在する$${J}$$に対して,$${\{\boldsymbol\mu_k\}}$$もしくは$${\{r_{nk}\}}$$の更新で$${J}$$が増加しないことが確約されるため,有限回の更新で$${J}$$は収束する。



Exercise (9.2)

$${p(\mathbf{x}|\boldsymbol\mu)=\prod_{k=1}^K\exp\left\{-r_k(\mathbf{x})\|\mathbf{x}-\boldsymbol\mu_k\|^2\right\}}$$としてRobbins-Monro procedureに当てはめると,

$$
\begin{align*}
\boldsymbol\mu_k^{(N)}&=\boldsymbol\mu_k^{(N-1)}+2a_{N-1}r_k(\mathbf{x})\left\{\mathbf{x}-\boldsymbol\mu_k^{(N-1)}\right\}
\end{align*}
$$

$${r_k(\mathbf{x}_n)=1}$$となる$${\mathbf{x}_n}$$を代入し,$${2a_{N-1}:=\eta_n,\ (N)\rightarrow{\rm new},\ (N-1)\rightarrow{\rm old}}$$と表記を変更すると,

$$
\begin{align*}
\boldsymbol\mu_k^{\rm new}&=\boldsymbol\mu_k^{\rm old}+\eta_n\left(\mathbf{x}-\boldsymbol\mu_k^{\rm old}\right)
\end{align*}
$$

となり,式(9.5)が得られる。



Exercise (9.3)

$$
\begin{align*}
p(\mathbf{x})&=\sum_{\mathbf{z}}p(\mathbf{x},\mathbf{z})\\
&=\sum_{\mathbf{z}}p(\mathbf{x}|\mathbf{z})p(\mathbf{z})\\
&=\sum_{\mathbf{z}}\prod_{k=1}^K\left\{\pi_k\mathcal{N}(\mathbf{x}|\boldsymbol\mu_k,\boldsymbol\Sigma_k)\right\}^{z_k}
\end{align*}
$$

$${k}$$成分が1,それ以外の成分が$${0}$$の場合の$${\mathbf{z}}$$の場合,

$$
\begin{align*}
\prod_{j=1}^K\left\{\pi_j\mathcal{N}(\mathbf{x}|\boldsymbol\mu_j,\boldsymbol\Sigma_j)\right\}^{z_j}&=1\cdot 1\cdots\pi_k\mathcal{N}(\mathbf{x}|\boldsymbol\mu_k,\boldsymbol\Sigma_k)\cdot 1\cdots\\
&=\pi_k\mathcal{N}(\mathbf{x}|\boldsymbol\mu_k,\boldsymbol\Sigma_k)
\end{align*}
$$

となるため,

$$
\begin{align*}
p(\mathbf{x})&=\sum_{\mathbf{z}}\prod_{k=1}^K\left\{\pi_k\mathcal{N}(\mathbf{x}|\boldsymbol\mu_k,\boldsymbol\Sigma_k)\right\}^{z_k}\\
&=\sum_{k=1}^K\pi_k\mathcal{N}(\mathbf{x}|\boldsymbol\mu_k,\boldsymbol\Sigma_k)
\end{align*}
$$

が得られる。



Exercise (9.4)

$${p(\boldsymbol\theta|\mathbf{X})}$$を最大化するEMアルゴリズムは,式(9.29)-(9.34)において$${\boldsymbol\theta}$$と$${\mathbf{X}}$$を入れ替えることで得られる。

Eステップについては$${p(\mathbf{Z}|\mathbf{X},\boldsymbol\theta^{\rm old})=p(\mathbf{Z}|\boldsymbol\theta^{\rm old},\mathbf{X})}$$のため,$${p(\mathbf{X}|\boldsymbol\theta)}$$の場合と同じになる。

一方,Mステップに関しては,

$$
\begin{align*}
\mathcal{Q}'(\boldsymbol\theta,\boldsymbol\theta^{\rm old})&:=\sum_{\mathbf{Z}}p(\mathbf{Z}|\boldsymbol\theta^{\rm old},\mathbf{X})\ln p(\boldsymbol\theta,\mathbf{Z}|\mathbf{X})\\
&=\sum_{\mathbf{Z}}p(\mathbf{Z}|\boldsymbol\theta^{\rm old},\mathbf{X})\ln\left\{\frac{p(\mathbf{X,\mathbf{Z}|\boldsymbol\theta})p(\boldsymbol\theta)}{p(\mathbf{X})}\right\}\\
&=\mathcal{Q}(\boldsymbol\theta,\boldsymbol\theta^{\rm old})+\ln\left\{\frac{p(\boldsymbol\theta)}{p(\mathbf{X})}\right\}\sum_{\mathbf{Z}}p(\mathbf{Z}|\boldsymbol\theta^{\rm old},\mathbf{X})\\
&=\mathcal{Q}(\boldsymbol\theta,\boldsymbol\theta^{\rm old})+\ln p(\boldsymbol\theta) - \ln p(\mathbf{X})\\
\therefore \boldsymbol\theta^{\rm new}&=\argmax_{\boldsymbol\theta}\left\{\mathcal{Q}(\boldsymbol\theta,\boldsymbol\theta^{\rm old})+\ln p(\boldsymbol\theta) - \ln p(\mathbf{X})\right\}\\
&=\argmax_{\boldsymbol\theta}\left\{\mathcal{Q}(\boldsymbol\theta,\boldsymbol\theta^{\rm old})+\ln p(\boldsymbol\theta)\right\}
\end{align*}
$$

となる。



Exercise (9.5)

$$
\begin{align*}
p(\mathbf{Z}|\mathbf{X},\boldsymbol\mu,\boldsymbol\Sigma,\boldsymbol\pi)&=p(\mathbf{Z}|\mathbf{X},\boldsymbol\pi)p(\mathbf{X}|\boldsymbol\mu,\boldsymbol\Sigma)\\
&=\frac{p(\mathbf{Z},\mathbf{X}|\boldsymbol\pi)}{p(\mathbf{X})}p(\mathbf{X}|\boldsymbol\mu,\boldsymbol\Sigma)\\
&=\prod_{n=1}^N\left\{\frac{p(\mathbf{z}_n|\boldsymbol\pi)}{p(\mathbf{x}_n)}\right\}\left\{p(\mathbf{x}_n|\boldsymbol\mu,\boldsymbol\Sigma)\right\}\\
&=\prod_{n=1}^Np(\mathbf{z}_n|\mathbf{x}_n,\boldsymbol\pi)p(\mathbf{x}_n|\boldsymbol\mu,\boldsymbol\Sigma)\\
&=\prod_{n=1}^Np(\mathbf{z}_n|\mathbf{x}_n,\boldsymbol\mu,\boldsymbol\Sigma,\boldsymbol\pi)
\end{align*}
$$



Exercise (9.6)

$${k=1,\cdots,K}$$において共通の$${\boldsymbol\Sigma}$$を有するとき,式(9.25)以外に変化はない。
$${\boldsymbol\Sigma^{\rm new}}$$の更新式は以下の式から得られる。

$$
\begin{align*}
\sum_{n=1}^N\sum_{k=1}^K\gamma(z_{nk})\frac{\partial}{\partial\boldsymbol\Sigma}\ln\mathcal{N}(\mathbf{x}_n|\boldsymbol\mu_k^{\rm new},\boldsymbol\Sigma)&=\sum_{k=1}^K\left[\sum_{n=1}^N\gamma(z_{nk})\boldsymbol\Sigma^{-1}-\sum_{n=1}^N\gamma(z_{nk})\boldsymbol\Sigma^{-1}(\mathbf{x}_n-\boldsymbol\mu_k^{\rm new})(\mathbf{x}_n-\boldsymbol\mu_k^{\rm new})^{\rm T}\boldsymbol\Sigma^{-1}\right]\\
&=\boldsymbol\Sigma^{-1}\left[N\mathbf{I}-\left\{\sum_{n=1}^N\sum_{k=1}^K\gamma(z_{nk})(\mathbf{x}_n-\boldsymbol\mu_k^{\rm new})(\mathbf{x}_n-\boldsymbol\mu_k^{\rm new})^{\rm T}\right\}\boldsymbol\Sigma^{-1}\right]\\
&=\mathbf{0}\\
\therefore \boldsymbol\Sigma^{\rm new}&=\frac{1}{N}\sum_{n=1}^N\sum_{k=1}^K\gamma(z_{nk})(\mathbf{x}_n-\boldsymbol\mu_k^{\rm new})(\mathbf{x}_n-\boldsymbol\mu_k^{\rm new})^{\rm T}
\end{align*}
$$



Exercise (9.7)

$$
\begin{align*}
\frac{\partial}{\partial\boldsymbol\mu_k}\ln p(\mathbf{X},\mathbf{Z}|\boldsymbol\mu,\boldsymbol\Sigma,\boldsymbol\pi)&=\sum_{n=1}^N z_{nk}\boldsymbol\Sigma_k^{-1}(\mathbf{x}_n-\boldsymbol\mu_k)\\
&=\boldsymbol\Sigma_k^{-1}\left\{\sum_{n=1}^N z_{nk}\mathbf{x}_n-\left(\sum_{n=1}^N z_{nk}\right)\boldsymbol\mu_k\right\}\\
&=\mathbf{0}\\
\therefore \boldsymbol\mu_k^{\rm ML}&=\frac{\sum_{n=1}^N z_{nk}\mathbf{x}_n}{\sum_{n=1}^N z_{nk}}
\end{align*}
$$

$${\boldsymbol\mu_k^{\rm ML}}$$はclass $${k}$$に属するデータ点の平均に等しい。


$$
\begin{align*}
\frac{\partial}{\partial\boldsymbol\Sigma_k}\ln p(\mathbf{X},\mathbf{Z}|\boldsymbol\mu,\boldsymbol\Sigma,\boldsymbol\pi)&=-\frac{1}{2}\sum_{n=1}^N z_{nk}\left\{\frac{\partial}{\partial\boldsymbol\Sigma_k}\ln|\boldsymbol\Sigma_k|+(\mathbf{x}_n-\boldsymbol\mu_k)^{\rm T}\frac{\partial}{\partial\boldsymbol\Sigma_k}\boldsymbol\Sigma_k^{-1}(\mathbf{x}_n-\boldsymbol\mu_k)\right\}\\
&=-\frac{1}{2}\sum_{n=1}^N z_{nk}\left\{\boldsymbol\Sigma_k^{-1}-(\mathbf{x}_n-\boldsymbol\mu_k)^{\rm T}\boldsymbol\Sigma_k^{-1}\frac{\partial}{\partial\boldsymbol\Sigma_k}\boldsymbol\Sigma_k\boldsymbol\Sigma_k^{-1}(\mathbf{x}_n-\boldsymbol\mu_k)\right\}\\
&=-\frac{1}{2}\sum_{n=1}^N z_{nk}\left\{\boldsymbol\Sigma_k^{-1}-\boldsymbol\Sigma_k^{-1}(\mathbf{x}_n-\boldsymbol\mu_k)(\mathbf{x}_n-\boldsymbol\mu_k)^{\rm T}\boldsymbol\Sigma_k^{-1}\right\}\\
&=-\frac{1}{2}\boldsymbol\Sigma_k^{-1}\sum_{n=1}^N z_{nk}\left\{\mathbf{I}-(\mathbf{x}_n-\boldsymbol\mu_k)(\mathbf{x}_n-\boldsymbol\mu_k)^{\rm T}\boldsymbol\Sigma_k^{-1}\right\}\\
&=\mathbf{0}\\
\therefore \boldsymbol\Sigma_k^{\rm ML}&=\frac{\sum_{n=1}^N z_{nk}(\mathbf{x}_n-\boldsymbol\mu_k^{\rm ML})(\mathbf{x}_n-\boldsymbol\mu_k^{\rm ML})^{\rm T}}{\sum_{n=1}^N z_{nk}}
\end{align*}
$$

$${\boldsymbol\Sigma_k^{\rm ML}}$$はclass $${k}$$に属するデータ点の分散共分散に等しい。


$$
\begin{align*}
\frac{\partial}{\partial\pi_k}\left\{\ln p(\mathbf{X},\mathbf{Z}|\boldsymbol\mu,\boldsymbol\Sigma,\boldsymbol\pi)+\lambda\left(\sum_{k=1}^K\pi_k-1\right)\right\}&=\frac{1}{\pi_k}\sum_{n=1}^Nz_{nk}+\lambda\\
&=0\\
\therefore \pi_k^{\rm ML}&=-\frac{1}{\lambda}\sum_{n=1}^Nz_{nk}
\end{align*}
$$

$$
\begin{align*}
\sum_{k=1}^K\pi_k^{\rm ML}&=-\frac{1}{\lambda}\sum_{k=1}^K\sum_{n=1}^Nz_{nk}\\
&=-\frac{N}{\lambda}\\
&=1\\
\lambda&=-N\\
\therefore \pi_k^{\rm ML}&=\frac{1}{N}\sum_{n=1}^Nz_{nk}
\end{align*}
$$

$${\pi_k^{\rm ML}}$$は全データ点に対するclass $${k}$$に属するデータ点の割合に等しい。



Exercise (9.8)

$${\gamma(z_{nk})}$$を固定した条件で式(9.40)を$${\boldsymbol\mu_k}$$で微分すると,

$$
\begin{align*}
\frac{\partial}{\partial\boldsymbol\mu_k}\mathbb{E}\left[\ln p(\mathbf{X},\mathbf{Z}|\boldsymbol\mu,\boldsymbol\Sigma,\boldsymbol\pi)\right]&=\sum_{n=1}^N \gamma(z_{nk})\boldsymbol\Sigma_k^{-1}(\mathbf{x}_n-\boldsymbol\mu_k)\\
&=\boldsymbol\Sigma_k^{-1}\left\{\sum_{n=1}^N \gamma(z_{nk})\mathbf{x}_n-N_k\boldsymbol\mu_k\right\}\\
&=\mathbf{0}\\
\therefore \boldsymbol\mu_k&=\frac{1}{N_k}\sum_{n=1}^N \gamma(z_{nk})\mathbf{x}_n
\end{align*}
$$

となり,式(9.17)が得られる。



Exercise (9.9)

$${\gamma(z_{nk})}$$を固定した条件で式(9.40)を$${\boldsymbol\Sigma_k}$$で微分すると,

$$
\begin{align*}
\frac{\partial}{\partial\boldsymbol\Sigma_k}\mathbb{E}\left[\ln p(\mathbf{X},\mathbf{Z}|\boldsymbol\mu,\boldsymbol\Sigma,\boldsymbol\pi)\right]&=-\frac{1}{2}\sum_{n=1}^N \gamma(z_{nk})\left\{\frac{\partial}{\partial\boldsymbol\Sigma_k}\ln|\boldsymbol\Sigma_k|+(\mathbf{x}_n-\boldsymbol\mu_k)^{\rm T}\frac{\partial}{\partial\boldsymbol\Sigma_k}\boldsymbol\Sigma_k^{-1}(\mathbf{x}_n-\boldsymbol\mu_k)\right\}\\
&=-\frac{1}{2}\sum_{n=1}^N \gamma(z_{nk})\left\{\boldsymbol\Sigma_k^{-1}-(\mathbf{x}_n-\boldsymbol\mu_k)^{\rm T}\boldsymbol\Sigma_k^{-1}\frac{\partial}{\partial\boldsymbol\Sigma_k}\boldsymbol\Sigma_k\boldsymbol\Sigma_k^{-1}(\mathbf{x}_n-\boldsymbol\mu_k)\right\}\\
&=-\frac{1}{2}\sum_{n=1}^N \gamma(z_{nk})\left\{\boldsymbol\Sigma_k^{-1}-\boldsymbol\Sigma_k^{-1}(\mathbf{x}_n-\boldsymbol\mu_k)(\mathbf{x}_n-\boldsymbol\mu_k)^{\rm T}\boldsymbol\Sigma_k^{-1}\right\}\\
&=-\frac{1}{2}\boldsymbol\Sigma_k^{-1}\sum_{n=1}^N \gamma(z_{nk})\left\{\mathbf{I}-(\mathbf{x}_n-\boldsymbol\mu_k)(\mathbf{x}_n-\boldsymbol\mu_k)^{\rm T}\boldsymbol\Sigma_k^{-1}\right\}\\
&=\mathbf{0}\\
\therefore \boldsymbol\Sigma_k&=\frac{1}{N_k}\sum_{n=1}^N \gamma(z_{nk})(\mathbf{x}_n-\boldsymbol\mu_k)(\mathbf{x}_n-\boldsymbol\mu_k)^{\rm T}
\end{align*}
$$

となり,式(9.19)が得られる。


一方,$${\pi_k}$$に関する微分については,

$$
\begin{align*}
\frac{\partial}{\partial\pi_k}\left\{\mathbb{E}\left[\ln p(\mathbf{X},\mathbf{Z}|\boldsymbol\mu,\boldsymbol\Sigma,\boldsymbol\pi)\right]+\lambda\left(\sum_{k=1}^K\pi_k-1\right)\right\}&=\frac{1}{\pi_k}\sum_{n=1}^N\gamma(z_{nk})+\lambda\\
&=0\\
\therefore \pi_k^{\rm ML}&=-\frac{N_k}{\lambda}
\end{align*}
$$

$$
\begin{align*}
\sum_{k=1}^K\pi_k^{\rm ML}&=-\frac{1}{\lambda}\sum_{k=1}^K\sum_{n=1}^Nz_{nk}\\
&=-\frac{N}{\lambda}\\
&=1\\
\lambda&=-N\\
\therefore \pi_k&=\frac{N_k}{N}
\end{align*}
$$

となり,式(9.22)が得られる。



Exercise (9.10)

$$
\begin{align*}
p(\mathbf{x}_b|\mathbf{x}_a)&=\frac{p(\mathbf{x}_a,\mathbf{x}_b)}{p(\mathbf{x}_a)}\\
&=\sum_{k=1}^Kp(k)\frac{p(\mathbf{x}_a,\mathbf{x}_b|k)}{p(\mathbf{x}_a)}\\
&=\sum_{k=1}^K\left\{\frac{p(k)p(\mathbf{x}_a|k)}{p(\mathbf{x}_a)}\right\}p(\mathbf{x}_b|\mathbf{x}_a,k)\\
&=\sum_{k=1}^Kp(k|\mathbf{x}_a)p(\mathbf{x}_b|\mathbf{x}_a,k)\\
&=:\sum_{k=1}^K\pi_k'p(\mathbf{x}_b|\mathbf{x}_a,k)
\end{align*}
$$

Exercise (9.11) - (9.20)

Exercise (9.11)

$$
\begin{align*}
i&:=\argmin_{j}\left\{\|\mathbf{x}_n-\boldsymbol\mu_j\|^2\right\}
\end{align*}
$$

とおくと,$${\boldsymbol\Sigma_k=\epsilon\mathbf{I}}$$のとき,

$$
\begin{align*}
\gamma(z_{nk})&=\frac{\pi_k\exp\left\{-\frac{1}{2\epsilon}\left(\|\mathbf{x}_n-\boldsymbol\mu_k\|^2-\|\mathbf{x}_n-\boldsymbol\mu_i\|^2\right)\right\}}{\pi_i+\sum_{j\neq i}\pi_j\exp\left\{-\frac{1}{2\epsilon}\left(\|\mathbf{x}_n-\boldsymbol\mu_j\|^2-\|\mathbf{x}_n-\boldsymbol\mu_i\|^2\right)\right\}}\\
&\rightarrow\begin{cases}
1 &\text{if } k=i \\
0 &\text{otherwise}
\end{cases}\\
&(\epsilon\rightarrow 0)
\end{align*}
$$

という性質を持つ。
また,式(9.40)は

$$
\begin{align*}
-\frac{1}{2\epsilon}\sum_{n=1}^N\sum_{k=1}^K\gamma(z_{nk})\|\mathbf{x}_n-\boldsymbol\mu_k\|^2+\sum_{n=1}^N\sum_{k=1}^K\gamma(z_{nk})\left\{\ln \pi_k-\frac{K}{2}\ln(2\pi\epsilon)\right\}
\end{align*}
$$

となる。
右辺第二項は$${\boldsymbol\mu_k}$$の解を求める際に影響しない。また,右辺第一項の係数は$${1/2}$$に変更しても$${\boldsymbol\mu_k}$$の解は影響しない。
そのため,$${\epsilon\rightarrow 0}$$において,

$$
\begin{align*}
-\frac{1}{2}\sum_{n=1}^N\sum_{k=1}^Kr_{nk}\|\mathbf{x}_n-\boldsymbol\mu_k\|^2
\end{align*}
$$

を最大にする$${\boldsymbol\mu_k}$$を求める問題に帰着し,それはK-meansと等価である。



Exercise (9.12)

簡単のため,$${\mathbf{x}}$$は連続変数のみで構成される場合を考える。

$$
\begin{align*}
\mathbb{E}[\mathbf{x}]&=\int{\rm d}\mathbf{x}p(\mathbf{x})\mathbf{x}\\
&=\sum_{k=1}^K\pi_k\int{\rm d}\mathbf{x}p(\mathbf{x}|k)\mathbf{x}\\
&=\sum_{k=1}^K\pi_k\boldsymbol\mu_k
\end{align*}
$$


$$
\begin{align*}
{\rm cov}[\mathbf{x}]&=\mathbb{E}[\mathbf{x}\mathbf{x}^{\rm T}]-\mathbb{E}[\mathbf{x}]\mathbb{E}[\mathbf{x}]^{\rm T}\\
&=\int{\rm d}\mathbf{x}p(\mathbf{x})\mathbf{x}\mathbf{x}^{\rm T}-\mathbb{E}[\mathbf{x}]\mathbb{E}[\mathbf{x}]^{\rm T}\\
&=\sum_{k=1}^K\pi_k\int{\rm d}\mathbf{x}p(\mathbf{x}|k)\mathbf{x}\mathbf{x}^{\rm T}-\mathbb{E}[\mathbf{x}]\mathbb{E}[\mathbf{x}]^{\rm T}\\
&=\sum_{k=1}^K\pi_k\left\{\boldsymbol\Sigma_k-\boldsymbol\mu_k\boldsymbol\mu_k^{\rm T}\right\}-\mathbb{E}[\mathbf{x}]\mathbb{E}[\mathbf{x}]^{\rm T}
\end{align*}
$$



Exercise (9.13)

$$
\begin{align*}
\mathbb{E}[\mathbf{x}]&=\sum_{k=1}^K\pi_k\boldsymbol\mu_k\\
&=\sum_{k=1}^K\pi_k\left\{\frac{1}{N_k}\sum_{n=1}^N\gamma(z_{nk})\mathbf{x}_n\right\}\\
&=\sum_{n=1}^N\left\{\sum_{k=1}^K\frac{\pi_k\gamma(z_{nk})}{N_k}\right\}\mathbf{x}_n\\
&=\sum_{n=1}^N\left\{\frac{\sum_{k=1}^K\gamma(z_{nk})}{N}\right\}\mathbf{x}_n\\
&=\frac{1}{N}\sum_{n=1}^N\mathbf{x}_n
\end{align*}
$$


$${\boldsymbol\mu_k=\hat{\boldsymbol\mu}}$$のとき,

$$
\begin{align*}
\gamma(z_{nk})&=\frac{\pi_kp(\mathbf{x}_n|\hat{\boldsymbol\mu})}{\sum_{j=1}^K\pi_jp(\mathbf{x}_n|\hat{\boldsymbol\mu})}\\
&=\pi_k
\end{align*}
$$

となるため,

$$
\begin{align*}
N_k&=\sum_{n=1}^N\gamma(z_{nk})\\
&=\pi_k\sum_{n=1}^N1\\
&=N\pi_k\\
\boldsymbol\mu_k^{\rm new}&=\bar{\mathbf{x}}_k\\
&=\frac{1}{N_k}\sum_{n=1}^N\gamma(z_{nk})\mathbf{x}_n\\
&=\frac{\pi_k}{N\pi_k}\sum_{n=1}^N\mathbf{x}_n\\
&=\frac{1}{N}\sum_{n=1}^N\mathbf{x}_n\\
&=\bar{\mathbf{x}}
\end{align*}
$$

となる。



Exercise (9.14)

$$
\begin{align*}
p(\mathbf{x}|\boldsymbol\mu,\boldsymbol\pi)&=\sum_{\mathbf{z}}p(\mathbf{x},\mathbf{z}|\boldsymbol\mu,\boldsymbol\pi)\\
&=\sum_{\mathbf{z}}p(\mathbf{x}|\mathbf{z},\boldsymbol\mu)p(\mathbf{z}|\boldsymbol\pi)\\
&=\sum_{\mathbf{z}}\prod_{k=1}^K\left\{\pi_kp(\mathbf{x}|\boldsymbol\mu_k)\right\}^{z_k}\\
&=\sum_{k=1}^K\pi_kp(\mathbf{x}|\boldsymbol\mu_k)
\end{align*}
$$



Exercise (9.15)

$$
\begin{align*}
\frac{\partial}{\partial \mu_{ki}}\mathbb{E}_{\mathbf{Z}}\left[\ln p(\mathbf{X},\mathbf{Z}|\boldsymbol\mu,\boldsymbol\pi)\right]&=\sum_{n=1}^N\gamma(z_{nk})\left(\frac{x_{ni}}{\mu_{ki}}-\frac{1-x_{ni}}{1-\mu_{ki}}\right)\\
&=\frac{\sum_{n=1}^N\gamma(z_{nk})(x_{ni}-\mu_{ki})}{\mu_{ki}(1-\mu_{ki})}\\
&=0\\
\mu_{ki}^{\rm new}&=\frac{\sum_{n=1}^N\gamma(z_{nk})x_{ni}}{\sum_{n=1}^N\gamma(z_{nk})}\\
&=\frac{1}{N_k}\sum_{n=1}^N\gamma(z_{nk})x_{ni}\\
&=(\bar{\mathbf{x}}_k)_i\\
\therefore \boldsymbol\mu_{k}^{\rm new}&=\bar{\mathbf{x}}_k
\end{align*}
$$



Exercise (9.16)

$$
\begin{align*}
\frac{\partial}{\partial \pi_{k}}\left\{\mathbb{E}_{\mathbf{Z}}\left[\ln p(\mathbf{X},\mathbf{Z}|\boldsymbol\mu,\boldsymbol\pi)\right]+\lambda\left(\sum_{k=1}^K\pi_k-1\right)\right\}&=\sum_{n=1}^N\frac{\gamma(z_{nk})}{\pi_k}+\lambda\\
&=0\\
\therefore \pi_k^{\rm new}&=-\frac{N_k}{\lambda}
\end{align*}
$$

$$
\begin{align*}
\sum_{k=1}^{K}\pi_k^{\rm new}&=-\frac{1}{\lambda}\sum_{k=1}^{K}N_k\\
&=-\frac{N}{\lambda}\\
&=1\\
\lambda&=-N\\
\therefore  \pi_k^{\rm new}&=\frac{N_k}{N}
\end{align*}
$$



Exercise (9.17)

$$
\begin{align*}
\ln p(\mathbf{X}|\boldsymbol\mu,\boldsymbol\pi)&=\ln\left\{\sum_{k=1}^K\pi_kp(\mathbf{x}|\boldsymbol\mu_k)\right\}\\
&<\ln\left\{\sum_{k=1}^K\pi_k\cdot 1\right\}\\
&=\ln 1\\
&=0
\end{align*}
$$

以上より,$${\ln p(\mathbf{X}|\boldsymbol\mu,\boldsymbol\pi)}$$には$${\infty}$$に発散する特異点は存在しない。



Exercise (9.18)

$${\boldsymbol\theta:=\begin{pmatrix}\boldsymbol\mu_1^{\rm T}&\cdots\boldsymbol\mu_K^{\rm T}&\boldsymbol\pi\end{pmatrix}^{\rm T}}$$とおくと,

E stepでは$${p(\mathbf{Z}|\mathbf{X},\boldsymbol\theta^{\rm old})}$$を評価する。
一方,M stapでは

$$
\begin{align*}
\boldsymbol\theta^{\rm new}&=\argmax_{\boldsymbol\theta}\mathcal{Q}'(\boldsymbol\theta,\boldsymbol\theta^{\rm old})\\
\mathcal{Q}'(\boldsymbol\theta,\boldsymbol\theta^{\rm old})&=\mathcal{Q}(\boldsymbol\theta,\boldsymbol\theta^{\rm old})+\ln p(\boldsymbol\theta|\mathbf{a},\mathbf{b},\boldsymbol\alpha)\\
&=\mathcal{Q}(\boldsymbol\theta,\boldsymbol\theta^{\rm old})+\ln p(\boldsymbol\mu|\mathbf{a},\mathbf{b})+\ln p(\boldsymbol\pi|\boldsymbol\alpha)\\
&=\mathcal{Q}(\boldsymbol\theta,\boldsymbol\theta^{\rm old})+\sum_{k=1}^K\sum_{i=1}^D\ln{\rm Beta}(\mu_{ki}|a_k,b_k)+\ln {\rm Dir}(\boldsymbol\pi|\boldsymbol\alpha)
\end{align*}
$$

を評価する。



Exercise (9.19)

$${p(\mathbf{x}|\boldsymbol\mu_k)=\prod_{i=1}^D\prod_{j=1}^M\mu_{kij}^{x_{ij}}}$$のとき,E stepでは以下の$${\gamma(z_{nk})}$$を計算する。

$$
\begin{align*}
\ln p(\mathbf{X},\mathbf{Z}|\boldsymbol\mu,\boldsymbol\pi)&=\sum_{n=1}^N\sum_{k=1}^Kz_{nk}\left(\ln\pi_k+\sum_{i=1}^D\sum_{j=1}^Mx_{nij}\ln\mu_{kij}\right)\\
\mathbb{E}_{\mathbf{Z}}\left[\ln p(\mathbf{X},\mathbf{Z}|\boldsymbol\mu,\boldsymbol\pi)\right]&=\sum_{n=1}^N\sum_{k=1}^K\mathbb{E}_{\mathbf{Z}}[z_{nk}]\left(\ln\pi_k+\sum_{i=1}^D\sum_{j=1}^Mx_{nij}\ln\mu_{kij}\right)\\
\gamma(z_{nk})&:=\mathbb{E}_{\mathbf{Z}}[z_{nk}]\\
&=\sum_{\mathbf{Z}}z_{nk}p(\mathbf{Z}|\mathbf{X},\boldsymbol\mu,\boldsymbol\pi)\\
&=\frac{\sum_{\mathbf{Z}}z_{nk}p(\mathbf{X},\mathbf{Z}|\boldsymbol\mu,\boldsymbol\pi)}{p(\mathbf{X}|\boldsymbol\mu,\boldsymbol\pi)}\\
&=\frac{\sum_{\mathbf{Z}}z_{nk}p(\mathbf{X},\mathbf{Z}|\boldsymbol\mu,\boldsymbol\pi)}{\sum_{\mathbf{Z}}p(\mathbf{X},\mathbf{Z}|\boldsymbol\mu,\boldsymbol\pi)}\\
&=\frac{\prod_{n'\neq n}^{N}\left\{\sum_{j=1}^K\pi_j p(\mathbf{x}_{n'}|\boldsymbol\mu_j)\right\}\pi_k p(\mathbf{x}_{n}|\boldsymbol\mu_k)}{\prod_{n=1}^{N}\left\{\sum_{k=1}^K\pi_k p(\mathbf{x}_n|\boldsymbol\mu_k)\right\}}\\
&=\frac{\pi_k p(\mathbf{x}_{n}|\boldsymbol\mu_k)}{\sum_{k=1}^K\pi_k p(\mathbf{x}_n|\boldsymbol\mu_k)}\\
&=\frac{\pi_k\prod_{i=1}^D\prod_{j=1}^M\mu_{kij}^{x_{nij}}}{\sum_{k=1}^K\pi_k\prod_{i=1}^D\prod_{j=1}^M\mu_{kij}^{x_{nij}}}
\end{align*}
$$


M stepでの$${\boldsymbol\mu_{k}}$$の更新は以下の式に従う。

$$
\begin{align*}
\frac{\partial}{\partial \mu_{kij}}\left\{\mathbb{E}_{\mathbf{Z}}\left[\ln p(\mathbf{X},\mathbf{Z}|\boldsymbol\mu,\boldsymbol\pi)\right]+\lambda\left(\sum_{j=1}^M\mu_{kij}-1\right)\right\}&=\frac{\sum_{n=1}^N\gamma(z_{nk})x_{nij}}{\mu_{kij}}+\lambda\\
&=0\\
\therefore \mu_{kij}^{\rm new}&=-\frac{\sum_{n=1}^N\gamma(z_{nk})x_{nij}}{\lambda}
\end{align*}
$$

$$
\begin{align*}
\sum_{j=1}^M\mu_{kij}^{\rm new}&=-\frac{1}{\lambda}\sum_{j=1}^M\sum_{n=1}^N\gamma(z_{nk})x_{nij}\\
&=1\\
\lambda&=-\sum_{j=1}^M\sum_{n=1}^N\gamma(z_{nk})x_{nij}\\
&=-\sum_{n=1}^N\gamma(z_{nk})\sum_{j=1}^Mx_{nij}\\
&=-\sum_{n=1}^N\gamma(z_{nk})\\
\therefore \boldsymbol\mu_{k}^{\rm new}&=\frac{\sum_{n=1}^N\gamma(z_{nk})\mathbf{x}_{n}}{\sum_{n=1}^N\gamma(z_{nk})}\\
&=\frac{1}{N_k}\sum_{n=1}^N\gamma(z_{nk})\mathbf{x}_{n}
\end{align*}
$$

M stepでの$${\boldsymbol\pi}$$の更新は以下の式に従う。

$$
\begin{align*}
\frac{\partial}{\partial \pi_{k}}\left\{\mathbb{E}_{\mathbf{Z}}\left[\ln p(\mathbf{X},\mathbf{Z}|\boldsymbol\mu,\boldsymbol\pi)\right]+\lambda\left(\sum_{k=1}^K\pi_{k}-1\right)\right\}&=\frac{\sum_{n=1}^N\gamma(z_{nk})}{\pi_{k}}+\lambda\\
&=0\\
\therefore \pi_{k}^{\rm new}&=-\frac{\sum_{n=1}^N\gamma(z_{nk})}{\lambda}\\
&=-\frac{N_k}{\lambda}
\end{align*}
$$

$$
\begin{align*}
\sum_{k=1}^K\pi_{k}^{\rm new}&=-\frac{1}{\lambda}\sum_{k=1}^KN_k\\
&=1\\
\lambda&=-N\\
\therefore \pi_k^{\rm new}&=\frac{N_k}{N}
\end{align*}
$$



Exercise (9.20)

$$
\begin{align*}
\frac{\partial}{\partial \alpha}\mathbb{E}\left[\ln p(\textsf{\textbf{t}},\mathbf{w}|\alpha,\beta)\right]&=\frac{M}{2\alpha}-\frac{1}{2}\mathbb{E}\left[\mathbf{w}^{\rm T}\mathbf{w}\right]\\
&=0\\
\therefore \alpha^{\rm new}&=\frac{M}{\mathbb{E}\left[\mathbf{w}^{\rm T}\mathbf{w}\right]}
\end{align*}
$$

$${\mathbb{E}\left[\mathbf{w}^{\rm T}\mathbf{w}\right]}$$について具体的に計算する。

$$
\begin{align*}
\mathbb{E}\left[\mathbf{w}^{\rm T}\mathbf{w}\right]&=\int{\rm d}\mathbf{w}p(\mathbf{w}|\textsf{\textbf{t}})\mathbf{w}^{\rm T}\mathbf{w}\\
&=\int{\rm d}\mathbf{w}\mathcal{N}\left(\mathbf{w}\left|\mathbf{m}_N,\mathbf{S}_N\right.\right)\mathbf{w}^{\rm T}\mathbf{w}\\
&=\frac{1}{(2\pi)^{M/2}}\frac{1}{|\mathbf{S}_N|^{1/2}}\int{\rm d}\mathbf{w}\exp\left\{-\frac{1}{2}(\mathbf{w}-\mathbf{m}_N)^{\rm T}\mathbf{S}_N^{-1}(\mathbf{w}-\mathbf{m}_N)\right\}\mathbf{w}^{\rm T}\mathbf{w}\\
&=\frac{1}{(2\pi)^{M/2}}\frac{1}{|\mathbf{S}_N|^{1/2}}\int{\rm d}\mathbf{z}\exp\left\{-\frac{1}{2}\mathbf{z}^{\rm T}\mathbf{S}_N^{-1}\mathbf{z}\right\}(\mathbf{z}+\mathbf{m}_N)^{\rm T}(\mathbf{z}+\mathbf{m}_N)\\
&\ \ \ \ \ (\mathbf{z}:=\mathbf{w}-\mathbf{m}_N)
\end{align*}
$$

ここで,$${\mathbf{S}_N}$$の固有値と固有ベクトルをそれぞれ$${\{\lambda_i\},\{\mathbf{u}_i\}}$$とする。
$${\mathbf{z}=\sum_iy_i\mathbf{u}_i}$$と展開すると,

$$
\begin{align*}
{\rm r.h.s}&=\frac{1}{(2\pi)^{M/2}}\frac{1}{|\mathbf{S}_N|^{1/2}}\int{\rm d}\mathbf{y}\exp\left(-\frac{1}{2}\sum_{i=1}^M\sum_{j=1}^My_iy_j\mathbf{u}_i^{\rm T}\mathbf{S}_N^{-1}\mathbf{u}_j\right)\left\{\left(\sum_{i=1}^M\sum_{j=1}^My_iy_j\mathbf{u}_i^{\rm T}\mathbf{u}_j\right)+2\left(\mathbf{m}_N^{\rm T}\sum_{i=1}^My_i\mathbf{u}_i\right)+\mathbf{m}_N^{\rm T}\mathbf{m}_N\right\}\\
&=\frac{1}{(2\pi)^{M/2}}\frac{1}{|\mathbf{S}_N|^{1/2}}\int{\rm d}\mathbf{y}\exp\left(-\frac{1}{2}\sum_{i=1}^M\sum_{j=1}^My_iy_j\lambda_j^{-1}\mathbf{u}_i^{\rm T}\mathbf{u}_j\right)\left\{\left(\sum_{i=1}^M\sum_{j=1}^My_iy_j\delta_{ij}\right)+2\left(\mathbf{m}_N^{\rm T}\sum_{i=1}^My_i\mathbf{u}_i\right)+\mathbf{m}_N^{\rm T}\mathbf{m}_N\right\}\\
&=\frac{1}{(2\pi)^{M/2}}\frac{1}{|\mathbf{S}_N|^{1/2}}\int{\rm d}\mathbf{y}\exp\left(-\frac{1}{2}\sum_{i=1}^M\sum_{j=1}^My_iy_j\lambda_j^{-1}\delta_{ij}\right)\left\{\left(\sum_{i=1}^M\sum_{j=1}^My_iy_j\delta_{ij}\right)+2\left(\mathbf{m}_N^{\rm T}\sum_{i=1}^My_i\mathbf{u}_i\right)+\mathbf{m}_N^{\rm T}\mathbf{m}_N\right\}\\
&=\frac{1}{(2\pi)^{M/2}}\frac{1}{|\mathbf{S}_N|^{1/2}}\int{\rm d}\mathbf{y}\exp\left(-\frac{1}{2}\sum_{i=1}^My_i^2\lambda_i^{-1}\right)\left\{\left(\sum_{i=1}^My_i^2\right)+2\left(\mathbf{m}_N^{\rm T}\sum_{i=1}^My_i\mathbf{u}_i\right)+\mathbf{m}_N^{\rm T}\mathbf{m}_N\right\}\\
&=\prod_{i=1}^M\lambda_i+\mathbf{m}_N^{\rm T}\mathbf{m}_N\\
&=\mathbf{m}_N^{\rm T}\mathbf{m}_N+{\rm Tr}\left(\mathbf{S}_N\right)
\end{align*}
$$

Exercise (9.21) - (9.27)

Exercise (9.21)

$$
\begin{align*}
\frac{\partial}{\partial \beta}\mathbb{E}\left[\ln p(\textsf{\textbf{t}},\mathbf{w}|\alpha,\beta)\right]&=\frac{N}{2\beta}-\frac{1}{2}\sum_{n=1}^N\mathbb{E}\left[(t_n-\mathbf{w}^{\rm T}\boldsymbol\phi_n)^2\right]\\
&=0\\
\therefore \beta^{\rm new}&=\frac{1}{N}\sum_{n=1}^N\mathbb{E}\left[(t_n-\mathbf{w}^{\rm T}\boldsymbol\phi_n)^2\right]
\end{align*}
$$

$${\mathbb{E}\left[(t_n-\mathbf{w}^{\rm T}\boldsymbol\phi_n)^2\right]}$$について具体的に計算する。

$$
\begin{align*}
\mathbb{E}\left[(t_n-\mathbf{w}^{\rm T}\boldsymbol\phi_n)^2\right]&=\int{\rm d}\mathbf{w}p(\mathbf{w}|\textsf{\textbf{t}})(t_n-\mathbf{w}^{\rm T}\boldsymbol\phi_n)^2\\
&=\int{\rm d}\mathbf{w}\mathcal{N}\left(\mathbf{w}\left|\mathbf{m}_N,\mathbf{S}_N\right.\right)(t_n^2-2t_n\mathbf{w}^{\rm T}\boldsymbol\phi_n+\boldsymbol\phi_n^{\rm T}\mathbf{w}\mathbf{w}^{\rm T}\boldsymbol\phi_n)\\
&=t_n^2+\boldsymbol\phi_n^{\rm T}\left\{\int{\rm d}\mathbf{w}\mathcal{N}\left(\mathbf{w}\left|\mathbf{m}_N,\mathbf{S}_N\right.\right)\mathbf{w}\mathbf{w}^{\rm T}\right\}\boldsymbol\phi_n\\
&=t_n^2+\boldsymbol\phi_n^{\rm T}(\mathbf{m}_N\mathbf{m}_N^{\rm T}+\mathbf{S}_N)\boldsymbol\phi_n
\end{align*}
$$

最後の式変形には式(2.62)を利用した。



Exercise (9.22)

$$
\begin{align*}
p(\textsf{\textbf{t}}|\mathbf{X},\mathbf{w},\beta)&=\prod_{n=1}^Np(t_n|\mathbf{x}_n,\mathbf{w},\beta^{-1})\\
&=\prod_{n=1}^N\mathcal{N}\left(t_n\left|\mathbf{w}^{\rm T}\boldsymbol\phi(\mathbf{x}_n),\beta^{-1}\right.\right)\\
&=\left(\frac{\beta}{2\pi}\right)^{N/2}\exp\left[-\frac{\beta}{2}\sum_{n=1}^N\left\{t_n-\mathbf{w}^{\rm T}\boldsymbol\phi(\mathbf{x}_n)\right\}^2\right]\\
&=\left(\frac{\beta}{2\pi}\right)^{N/2}\exp\left(-\frac{\beta}{2}\left\|\textsf{\textbf{t}}-\boldsymbol\Phi\mathbf{w}\right\|^2\right)\\
&=\mathcal{N}\left(\textsf{\textbf{t}}\left|\boldsymbol\Phi\mathbf{w},\beta^{-1}\mathbf{I}\right.\right)\\
p(\mathbf{w}|\boldsymbol\alpha)&=\prod_{i=1}^M\mathcal{N}(w_i|0,\alpha_i^{-1})\\
&=\prod_{i=1}^M\left(\frac{\alpha_i}{2\pi}\right)^{1/2}\exp\left(-\frac{\alpha_i}{2}w_i^2\right)\\
&=\mathcal{N}\left(\mathbf{w}\left|\mathbf{0},\mathbf{A}^{-1}\right.\right)\\
p(\mathbf{w}|\textsf{\textbf{t}},\mathbf{X},\boldsymbol\alpha,\beta)&=\mathcal{N}(\mathbf{w}|\mathbf{m},\boldsymbol\Sigma)\\
\mathbf{m}&=\beta\boldsymbol\Sigma\boldsymbol\Phi^{\rm T}\textsf{\textbf{t}}\\
\boldsymbol\Sigma&=\left(\mathbf{A}+\beta\boldsymbol\Phi^{\rm T}\boldsymbol\Phi\right)^{-1}
\end{align*}
$$

のとき,

$$
\begin{align*}
\mathbb{E}_{\mathbf{w}}\left[\ln p(\textsf{\textbf{t}},\mathbf{w}|\mathbf{X},\boldsymbol\alpha,\beta)\right]&=\mathbb{E}_{\mathbf{w}}\left[\ln p(\textsf{\textbf{t}}|\mathbf{X},\mathbf{w},\beta)p(\mathbf{w}|\boldsymbol\alpha)\right]\\
&=\mathbb{E}_{\mathbf{w}}\left[\ln p(\textsf{\textbf{t}}|\mathbf{X},\mathbf{w},\beta)\right]+\mathbb{E}_{\mathbf{w}}\left[\ln p(\mathbf{w}|\boldsymbol\alpha)\right]\\
\mathbb{E}_{\mathbf{w}}\left[\ln p(\textsf{\textbf{t}}|\mathbf{X},\mathbf{w},\beta)\right]&=\int{\rm d}\mathbf{w}p(\mathbf{w}|\textsf{\textbf{t}},\mathbf{X},\boldsymbol\alpha,\beta)\ln p(\textsf{\textbf{t}}|\mathbf{X},\mathbf{w},\beta)\\
&=\frac{N}{2}\ln\left(\frac{\beta}{2\pi}\right)-\frac{\beta}{2}\int{\rm d}\mathbf{w}\mathcal{N}(\mathbf{w}|\mathbf{m},\boldsymbol\Sigma)\left\|\textsf{\textbf{t}}-\boldsymbol\Phi\mathbf{w}\right\|^2\\
&=\frac{N}{2}\ln\left(\frac{\beta}{2\pi}\right)-\frac{\beta}{2}\left\|\textsf{\textbf{t}}-\boldsymbol\Phi\mathbf{m}\right\|^2-\frac{\beta}{2}\sum_{n=1}^N\boldsymbol\phi(\mathbf{x}_n)^{\rm T}\left\{\int{\rm d}\mathbf{z}\mathcal{N}(\mathbf{z}|\mathbf{0},\boldsymbol\Sigma)\mathbf{z}\mathbf{z}^{\rm T}\right\}\boldsymbol\phi(\mathbf{x}_n)\\
&=\frac{N}{2}\ln\left(\frac{\beta}{2\pi}\right)-\frac{\beta}{2}\left\|\textsf{\textbf{t}}-\boldsymbol\Phi\mathbf{m}\right\|^2-\frac{\beta}{2}\sum_{n=1}^N\boldsymbol\phi(\mathbf{x}_n)^{\rm T}\boldsymbol\Sigma\boldsymbol\phi(\mathbf{x}_n)\\
&=\frac{N}{2}\ln\left(\frac{\beta}{2\pi}\right)-\frac{\beta}{2}\left\|\textsf{\textbf{t}}-\boldsymbol\Phi\mathbf{m}\right\|^2-\frac{\beta}{2}{\rm Tr}\left(\boldsymbol\Phi\boldsymbol\Sigma\boldsymbol\Phi^{\rm T}\right)\\
&=\frac{N}{2}\ln\left(\frac{\beta}{2\pi}\right)-\frac{\beta}{2}\left\|\textsf{\textbf{t}}-\boldsymbol\Phi\mathbf{m}\right\|^2-\frac{\beta}{2}{\rm Tr}\left(\boldsymbol\Sigma\boldsymbol\Phi^{\rm T}\boldsymbol\Phi\right)\\
&=\frac{N}{2}\ln\left(\frac{\beta}{2\pi}\right)-\frac{\beta}{2}\left\|\textsf{\textbf{t}}-\boldsymbol\Phi\mathbf{m}\right\|^2-\frac{\beta}{2}{\rm Tr}\left(\frac{1}{\beta^{\rm old}}\boldsymbol\Sigma\left(\boldsymbol\Sigma^{-1}-\mathbf{A}\right)\right)\\
&=\frac{N}{2}\ln\left(\frac{\beta}{2\pi}\right)-\frac{\beta}{2}\left\|\textsf{\textbf{t}}-\boldsymbol\Phi\mathbf{m}\right\|^2-\frac{\beta}{2}\frac{1}{\beta^{\rm old}}\sum_i\gamma_i\\
\mathbb{E}_{\mathbf{w}}\left[\ln p(\mathbf{w}|\boldsymbol\alpha)\right]&=\int{\rm d}\mathbf{w}p(\mathbf{w}|\textsf{\textbf{t}},\mathbf{X},\boldsymbol\alpha,\beta)\ln p(\mathbf{w}|\boldsymbol\alpha)\\
&=-\frac{M}{2}\ln(2\pi)+\frac{1}{2}\ln|\mathbf{A}|-\frac{1}{2}\int{\rm d}\mathbf{w}\mathbf{w}^{\rm T}\mathbf{A}\mathbf{w}\mathcal{N}(\mathbf{w}|\mathbf{m},\boldsymbol\Sigma)\\
&=-\frac{M}{2}\ln(2\pi)+\frac{1}{2}\ln|\mathbf{A}|-\frac{1}{2}\int{\rm d}\mathbf{z}\left(\mathbf{z}+\mathbf{m}\right)^{\rm T}\mathbf{A}\left(\mathbf{z}+\mathbf{m}\right)\mathcal{N}(\mathbf{z}|\mathbf{0},\boldsymbol\Sigma)\\
&=-\frac{M}{2}\ln(2\pi)+\frac{1}{2}\ln|\mathbf{A}|-\frac{1}{2}\int{\rm d}\mathbf{z}\mathbf{z}^{\rm T}\mathbf{A}\mathbf{z}\mathcal{N}(\mathbf{z}|\mathbf{0},\boldsymbol\Sigma)-\frac{1}{2}\mathbf{m}^{\rm T}\mathbf{A}\mathbf{m}\\
\end{align*}
$$

となる。
$${\mathbf{m},\boldsymbol\Sigma}$$を固定した状態で$${\alpha_i}$$に関して微分すると,

$$
\begin{align*}
\frac{\partial}{\partial \alpha_i}\mathbb{E}_{\mathbf{w}}\left[\ln p(\textsf{\textbf{t}},\mathbf{w}|\mathbf{X},\boldsymbol\alpha,\beta)\right]&=\frac{\partial}{\partial \alpha_i}\mathbb{E}_{\mathbf{w}}\left[\ln p(\mathbf{w}|\boldsymbol\alpha)\right]\\
&=\frac{1}{2}\left(\frac{1}{\alpha_i}-\int{\rm d}\mathbf{z}z_i^2\mathcal{N}(\mathbf{z}|\mathbf{0},\boldsymbol\Sigma)-m_i^2\right)\\
&=\frac{1}{2}\left\{\frac{1}{\alpha_i}-\left(\int{\rm d}\mathbf{z}\mathbf{z}\mathbf{z}^{\rm T}\mathcal{N}(\mathbf{z}|\mathbf{0},\boldsymbol\Sigma)\right)_{ii}-m_i^2\right\}\\
&=\frac{1}{2}\left\{\frac{1}{\alpha_i}-\left(\mathbf{0}\mathbf{0}^{\rm T}+\boldsymbol\Sigma\right)_{ii}-m_i^2\right\}\\
&=\frac{1}{2}\left(\frac{1}{\alpha_i}-\Sigma_{ii}-m_i^2\right)\\
&=0\\
\therefore \alpha_i^{\rm new}&=\frac{1}{m_i^2+\Sigma_{ii}}
\end{align*}
$$

$${\mathbf{m},\boldsymbol\Sigma}$$を固定した状態で$${\beta}$$に関して微分すると,

$$
\begin{align*}
\frac{\partial}{\partial \beta}\mathbb{E}_{\mathbf{w}}\left[\ln p(\textsf{\textbf{t}},\mathbf{w}|\mathbf{X},\boldsymbol\alpha,\beta)\right]&=\frac{\partial}{\partial \beta}\mathbb{E}_{\mathbf{w}}\left[\ln p(\textsf{\textbf{t}}|\mathbf{X},\mathbf{w},\beta)\right]\\
&=\frac{1}{2}\left(\frac{N}{\beta}-\left\|\textsf{\textbf{t}}-\boldsymbol\Phi\mathbf{m}\right\|^2-\frac{1}{\beta^{\rm old}}\sum_i\gamma_i\right)\\
&=0\\
\therefore \left(\beta^{\rm new}\right)^{-1}&=\frac{\left\|\textsf{\textbf{t}}-\boldsymbol\Phi\mathbf{m}\right\|^2+\left(\beta^{\rm old}\right)^{-1}\sum_i\gamma_i}{N}
\end{align*}
$$



Exercise (9.23)

式(7.87)と式(9.67)を$${m_i^2}$$についてそれぞれまとめると,

$$
\begin{align*}
m_i^2&=\frac{\gamma_i}{\alpha_i^{\rm new}}\\
&=\frac{1-\Sigma_{ii}\alpha_i^{\rm old}}{\alpha_i^{\rm new}}\\\\
m_i^2&=\frac{1}{\alpha_i^{\rm new}}-\Sigma_{ii}\\
&=\frac{1-\Sigma_{ii}\alpha_i^{\rm new}}{\alpha_i^{\rm new}}
\end{align*}
$$

となる。
iterationが収束($${\alpha_i^{\rm new}=\alpha_i^{\rm old}}$$)した状態において両式は一致する。
そのため,式(7.87)と式(9.67)は等価である。


式(7.88)と式(9.68)を$${N}$$についてそれぞれまとめると,

$$
\begin{align*}
N&=\sum_i\gamma_i+\beta^{\rm new}\left\|\textsf{\textbf{t}}-\boldsymbol\Phi\mathbf{m}\right\|^2\\\\
N&=\frac{\beta^{\rm new}}{\beta^{\rm old}}\sum_i\gamma_i+\beta^{\rm new}\left\|\textsf{\textbf{t}}-\boldsymbol\Phi\mathbf{m}\right\|^2
\end{align*}
$$

となる。
iterationが収束($${\beta^{\rm new}=\beta^{\rm old}}$$)した状態において両式は一致する。
そのため,式(7.88)と式(9.68)は等価である。



Exercise (9.24)

$$
\begin{align*}
\ln p(\mathbf{X}|\boldsymbol\theta)&=\ln p(\mathbf{X}|\boldsymbol\theta)\sum_{\mathbf{Z}}q(\mathbf{Z})\\
&=\sum_{\mathbf{Z}}q(\mathbf{Z})\ln p(\mathbf{X}|\boldsymbol\theta)\\
&=\sum_{\mathbf{Z}}q(\mathbf{Z})\ln \frac{p(\mathbf{X},\mathbf{Z}|\boldsymbol\theta)}{p(\mathbf{Z}|\mathbf{X},\boldsymbol\theta)}\\
&=\sum_{\mathbf{Z}}q(\mathbf{Z})\ln\frac{p(\mathbf{X},\mathbf{Z}|\boldsymbol\theta)q(\mathbf{Z})}{p(\mathbf{Z}|\mathbf{X},\boldsymbol\theta)q(\mathbf{Z})}\\
&=\sum_{\mathbf{Z}}q(\mathbf{Z})\ln\frac{p(\mathbf{X},\mathbf{Z}|\boldsymbol\theta)}{q(\mathbf{Z})}-\sum_{\mathbf{Z}}q(\mathbf{Z})\ln\frac{p(\mathbf{Z}|\mathbf{X},\boldsymbol\theta)}{q(\mathbf{Z})}\\
&=\mathcal{L}(q,\boldsymbol\theta)+{\rm KL}(q\| p)
\end{align*}
$$



Exercise (9.25)

$${q(\mathbf{Z})=p(\mathbf{Z}|\mathbf{X},\boldsymbol\theta^{\rm (old)})}$$のとき,

$$
\begin{align*}
\frac{\partial}{\partial\boldsymbol\theta}\ln p(\mathbf{X}|\boldsymbol\theta)&=\frac{\partial}{\partial\boldsymbol\theta}\mathcal{L}(q,\boldsymbol\theta)+\frac{\partial}{\partial\boldsymbol\theta}{\rm KL}(q\| p)\\
&=\frac{\partial}{\partial\boldsymbol\theta}\mathcal{L}(q,\boldsymbol\theta)-\sum_{\mathbf{Z}}\frac{p\left(\mathbf{Z}|\mathbf{X},\boldsymbol\theta^{\rm (old)}\right)}{p(\mathbf{Z}|\mathbf{X},\boldsymbol\theta)}\frac{\partial p(\mathbf{Z}|\mathbf{X},\boldsymbol\theta)}{\partial\boldsymbol\theta}\\
\therefore\left.\frac{\partial}{\partial\boldsymbol\theta}\ln p(\mathbf{X}|\boldsymbol\theta)\right|_{\boldsymbol\theta=\boldsymbol\theta^{\rm (old)}}&=\left.\frac{\partial}{\partial\boldsymbol\theta}\mathcal{L}(q,\boldsymbol\theta)\right|_{\boldsymbol\theta=\boldsymbol\theta^{\rm (old)}}-\sum_{\mathbf{Z}}\left.\frac{\partial p(\mathbf{Z}|\mathbf{X},\boldsymbol\theta)}{\partial\boldsymbol\theta}\right|_{\boldsymbol\theta=\boldsymbol\theta^{\rm (old)}}\\
&=\left.\frac{\partial}{\partial\boldsymbol\theta}\mathcal{L}(q,\boldsymbol\theta)\right|_{\boldsymbol\theta=\boldsymbol\theta^{\rm (old)}}
\end{align*}
$$



Exercise (9.26)

$$
\begin{align*}
N_k^{\rm new}&=\sum_{n\neq m}\gamma^{\rm old}(z_{nk})+\gamma^{\rm new}(z_{mk})\\
&=\sum_{n=1}^N\gamma^{\rm old}(z_{nk})-\gamma^{\rm old}(z_{mk})+\gamma^{\rm new}(z_{mk})\\
&=N_k^{\rm old}+\gamma^{\rm new}(z_{mk})-\gamma^{\rm old}(z_{mk})
\end{align*}
$$


$$
\begin{align*}
\boldsymbol\mu_k^{\rm new}&=\frac{1}{N_k^{\rm new}}\left\{\sum_{n\neq m}\gamma^{\rm old}(z_{nk})\mathbf{x}_n+\gamma^{\rm new}(z_{mk})\mathbf{x}_m\right\}\\
&=\frac{1}{N_k^{\rm new}}\left[\sum_{n=1}^N\gamma^{\rm old}(z_{nk})\mathbf{x}_n+\left\{\gamma^{\rm new}(z_{mk})-\gamma^{\rm old}(z_{mk})\right\}\mathbf{x}_m\right]\\
&=\frac{1}{N_k^{\rm new}}\left[N_k^{\rm old}\boldsymbol\mu_k^{\rm old}+\left\{\gamma^{\rm new}(z_{mk})-\gamma^{\rm old}(z_{mk})\right\}\mathbf{x}_m\right]\\
&=\frac{1}{N_k^{\rm new}}\left[\left\{N_k^{\rm new}-\gamma^{\rm new}(z_{mk})+\gamma^{\rm old}(z_{mk})\right\}\boldsymbol\mu_k^{\rm old}+\left\{\gamma^{\rm new}(z_{mk})-\gamma^{\rm old}(z_{mk})\right\}\mathbf{x}_m\right]\\
&=\boldsymbol\mu_k^{\rm old}+\left\{\frac{\gamma^{\rm new}(z_{mk})-\gamma^{\rm old}(z_{mk})}{N_k^{\rm new}}\right\}(\mathbf{x}_m-\boldsymbol\mu_k^{\rm old})
\end{align*}
$$



Exercise (9.27)

$$
\begin{align*}
\boldsymbol\Sigma_k^{\rm new}&=\frac{1}{N_k^{\rm new}}\left\{\sum_{n\neq m}\gamma^{\rm old}(z_{nk})(\mathbf{x}_n-\boldsymbol\mu_k^{\rm new})(\mathbf{x}_n-\boldsymbol\mu_k^{\rm new})^{\rm T}+\gamma^{\rm new}(z_{mk})(\mathbf{x}_m-\boldsymbol\mu_k^{\rm new})(\mathbf{x}_m-\boldsymbol\mu_k^{\rm new})^{\rm T}\right\}\\
&=\frac{1}{N_k^{\rm new}}\left[\sum_{n= 1}^N\gamma^{\rm old}(z_{nk})(\mathbf{x}_n-\boldsymbol\mu_k^{\rm new})(\mathbf{x}_n-\boldsymbol\mu_k^{\rm new})^{\rm T}+\left\{\gamma^{\rm new}(z_{mk})-\gamma^{\rm old}(z_{mk})\right\}(\mathbf{x}_m-\boldsymbol\mu_k^{\rm new})(\mathbf{x}_m-\boldsymbol\mu_k^{\rm new})^{\rm T}\right]\\
&=\frac{1}{N_k^{\rm new}}\left[N_k^{\rm old}\left\{\boldsymbol\Sigma_k^{\rm old}+\left(\frac{\gamma^{\rm new}(z_{mk})-\gamma^{\rm old}(z_{mk})}{N_k^{\rm new}}\right)^2(\mathbf{x}_m-\boldsymbol\mu_k^{\rm new})(\mathbf{x}_m-\boldsymbol\mu_k^{\rm new})^{\rm T}\right\}+\left\{\gamma^{\rm new}(z_{mk})-\gamma^{\rm old}(z_{mk})\right\}(\mathbf{x}_m-\boldsymbol\mu_k^{\rm new})(\mathbf{x}_m-\boldsymbol\mu_k^{\rm new})^{\rm T}\right]\\
&=\frac{1}{N_k^{\rm new}}\left[\left\{N_k^{\rm new}-\gamma^{\rm new}(z_{mk})+\gamma^{\rm old}(z_{mk})\right\}\left\{\boldsymbol\Sigma_k^{\rm old}+\left(\frac{\gamma^{\rm new}(z_{mk})-\gamma^{\rm old}(z_{mk})}{N_k^{\rm new}}\right)^2(\mathbf{x}_m-\boldsymbol\mu_k^{\rm new})(\mathbf{x}_m-\boldsymbol\mu_k^{\rm new})^{\rm T}\right\}+\left\{\gamma^{\rm new}(z_{mk})-\gamma^{\rm old}(z_{mk})\right\}(\mathbf{x}_m-\boldsymbol\mu_k^{\rm new})(\mathbf{x}_m-\boldsymbol\mu_k^{\rm new})^{\rm T}\right]\\
&=\boldsymbol\Sigma_k^{\rm old}+\frac{1}{N_k^{\rm new}}\left[-\left\{\gamma^{\rm new}(z_{mk})-\gamma^{\rm old}(z_{mk})\right\}\boldsymbol\Sigma_k^{\rm old}+\left\{N_k^{\rm new}-\gamma^{\rm new}(z_{mk})+\gamma^{\rm old}(z_{mk})\right\}\left\{\left(\frac{\gamma^{\rm new}(z_{mk})-\gamma^{\rm old}(z_{mk})}{N_k^{\rm new}}\right)^2(\mathbf{x}_m-\boldsymbol\mu_k^{\rm new})(\mathbf{x}_m-\boldsymbol\mu_k^{\rm new})^{\rm T}\right\}+\left\{\gamma^{\rm new}(z_{mk})-\gamma^{\rm old}(z_{mk})\right\}(\mathbf{x}_m-\boldsymbol\mu_k^{\rm new})(\mathbf{x}_m-\boldsymbol\mu_k^{\rm new})^{\rm T}\right]\\
&=\boldsymbol\Sigma_k^{\rm old}+\frac{\gamma^{\rm new}(z_{mk})-\gamma^{\rm old}(z_{mk})}{N_k^{\rm new}}\left[\left\{1+\frac{N_k^{\rm old}}{N_k^{\rm new}}-\left(\frac{N_k^{\rm old}}{N_k^{\rm new}}\right)^2\right\}(\mathbf{x}_m-\boldsymbol\mu_k^{\rm new})(\mathbf{x}_m-\boldsymbol\mu_k^{\rm new})^{\rm T}-\boldsymbol\Sigma_k^{\rm old}\right]\\
\end{align*}
$$


$$
\begin{align*}
\pi_k^{\rm new}&=\frac{N_k^{\rm new}}{N}\\
&=\frac{N_k^{\rm old}+\gamma^{\rm new}(z_{mk})-\gamma^{\rm old}(z_{mk})}{N}\\
&=\pi_k^{\rm old}+\frac{\gamma^{\rm new}(z_{mk})-\gamma^{\rm old}(z_{mk})}{N}
\end{align*}
$$

参考文献

  1. Christopher Bishop, Pattern Recognition and Machine Learning


いいなと思ったら応援しよう!