PRML自習ノート - chapter 14 -
Exercise (14.1) - (14.10)
Exercise (14.1)
$$
\begin{align*}
p(\mathbf{t}|\mathbf{x},\mathbf{X},\mathbf{T})&=\sum_hp(\mathbf{t},h|\mathbf{x},\mathbf{X},\mathbf{T})\\
&=\sum_hp(h)p(\mathbf{t}|h,\mathbf{x},\mathbf{X},\mathbf{T})\\
&=\sum_hp(h)\sum_{\mathbf{z}_h}p(\mathbf{t},\mathbf{z}_h|h,\mathbf{x},\mathbf{X},\mathbf{T})\\
&=\sum_hp(h)\sum_{\mathbf{z}_h}\int{\rm d}\boldsymbol\theta_hp(\mathbf{t},\mathbf{z}_h,\boldsymbol\theta_h|h,\mathbf{x},\mathbf{X},\mathbf{T})\\
&=\sum_hp(h)\frac{\sum_{\mathbf{z}_h}\int{\rm d}\boldsymbol\theta_hp(\mathbf{t},\mathbf{z}_h,\boldsymbol\theta_h,\mathbf{x},\mathbf{X},\mathbf{T}|h)}{p(\mathbf{x},\mathbf{X},\mathbf{T}|h)}\\
&=\sum_hp(h)\frac{\sum_{\mathbf{z}_h}\int{\rm d}\boldsymbol\theta_hp(\mathbf{t},\mathbf{z}_h,\mathbf{x},\mathbf{X},\mathbf{T}|\boldsymbol\theta_h,h)p(\boldsymbol\theta_h|h)}{p(\mathbf{x},\mathbf{X},\mathbf{T}|h)}\\
&=\sum_hp(h)\frac{\sum_{\mathbf{z}_h}p(\mathbf{z}_h|h)\int{\rm d}\boldsymbol\theta_hp(\mathbf{t},\mathbf{x},\mathbf{X},\mathbf{T}|\mathbf{z}_h,\boldsymbol\theta_h,h)p(\boldsymbol\theta_h|h)}{p(\mathbf{x},\mathbf{X},\mathbf{T}|h)}\\
&=\sum_hp(h)\frac{\sum_{\mathbf{z}_h}p(\mathbf{z}_h|h)\int{\rm d}\boldsymbol\theta_hp(\mathbf{t},\mathbf{x}|\mathbf{z}_h,\boldsymbol\theta_h,h)p(\mathbf{X},\mathbf{T}|\boldsymbol\theta_h,h)p(\boldsymbol\theta_h|h)}{p(\mathbf{x})p(\mathbf{T}|\mathbf{X},h)p(\mathbf{X})}\\
&=\sum_hp(h)\frac{\sum_{\mathbf{z}_h}p(\mathbf{z}_h|h)\int{\rm d}\boldsymbol\theta_hp(\mathbf{t}|\mathbf{z}_h,\mathbf{x},\boldsymbol\theta_h,h)p(\mathbf{T}|\boldsymbol\theta_h,\mathbf{X},h)p(\boldsymbol\theta_h|h)}{p(\mathbf{T}|\mathbf{X},h)}\\
&=\sum_hp(h)\sum_{\mathbf{z}_h}p(\mathbf{z}_h|h)\int{\rm d}\boldsymbol\theta_hp(\mathbf{t}|\mathbf{z}_h,\mathbf{x},\boldsymbol\theta_h,h)p(\boldsymbol\theta_h|\mathbf{X},\mathbf{T},h)
\end{align*}
$$
上式は$${h}$$の確率分布$${p(h)}$$,及びモデル$${h}$$における潜在変数$${\mathbf{z}_h}$$の確率分布$${p(\mathbf{z}_h|h)}$$を取り扱うベイズモデル平均化に対応する。
Exercise (14.2)
$$
\begin{align*}
E_{\rm COM}&=\mathbb{E}_{\mathbf{x}}\left[\left\{\frac{1}{M}\sum_{m=1}^M\varepsilon_m(\mathbf{x})\right\}^2\right]\\
&=\frac{1}{M^2}\sum_{m=1}^M\left\{\mathbb{E}_{\mathbf{x}}\left[\varepsilon_m(\mathbf{x})^2\right]+\sum_{l\neq m}\mathbb{E}_{\mathbf{x}}\left[\varepsilon_m(\mathbf{x})\varepsilon_l(\mathbf{x})\right]\right\}\\
&=\frac{1}{M}\left\{\frac{1}{M}\sum_{m=1}^M\mathbb{E}_{\mathbf{x}}\left[\varepsilon_m(\mathbf{x})^2\right]\right\}\\
&=\frac{1}{M}E_{\rm AV}
\end{align*}
$$
Exercise (14.3)
$$
\begin{align*}
\lambda_m&:=\frac{1}{M}\\
\varepsilon_{m}(\mathbf{x})&:=x_m\\
f(x)&:=x^2
\end{align*}
$$
とおくと,
$$
\begin{align*}
E_{\rm AV}&=\mathbb{E}_{\mathbf{x}}\left[\sum_{m=1}^M\lambda_mf(x_m)\right]\\
E_{\rm COM}&=\mathbb{E}_{\mathbf{x}}\left[f\left(\sum_{m=1}^M\lambda_mf(x_m)\right)\right]
\end{align*}
$$
と表すことができる。
イェンセンの不等式より,
$$
\begin{align*}
f\left(\sum_{m=1}^M\lambda_mf(x_m)\right)&\leq\sum_{m=1}^M\lambda_mf(x_m)\\
\mathbb{E}_{\mathbf{x}}\left[f\left(\sum_{m=1}^M\lambda_mf(x_m)\right)\right]&\leq\mathbb{E}_{\mathbf{x}}\left[\sum_{m=1}^M\lambda_mf(x_m)\right]\\
\therefore E_{\rm COM}&\leq E_{\rm AV}
\end{align*}
$$
Exercise (14.4)
誤差関数を任意の凸関数$${f}$$を用いて$${f(\varepsilon(\mathbf{x}))}$$とするとき,
$$
\begin{align*}
E_{\rm AV}&=\mathbb{E}\left[\sum_{m=1}\lambda_mf(\varepsilon(\mathbf{x}))\right]\\
E_{\rm COM}&=\mathbb{E}\left[f\left(\sum_{m=1}\lambda_m\varepsilon(\mathbf{x})\right)\right]\\
\end{align*}
$$
となる。
上式にイェンセンの不等式を適用することにより,任意の凸関数に対して$${E_{\rm COM}\leq E_{\rm AV}}$$が成立することが示される。
Exercise (14.5)
$${\alpha_m\geq 0, \sum_{m=1}^M\alpha_m=1}$$のとき,
$$
\begin{align*}
y_{\rm COM}(\mathbf{x})&=\sum_{m=1}^M\alpha_my_{m}(\mathbf{x})\\
&\geq\sum_{m=1}^M\alpha_{m}y_{\rm min}\\
&=\left(\sum_{m=1}^M\alpha_{m}\right)y_{\rm min}\\
&=y_{\rm min}\\
y_{\rm COM}(\mathbf{x})&=\sum_{m=1}^M\alpha_my_{m}(\mathbf{x})\\
&\leq\sum_{m=1}^M\alpha_{m}y_{\rm max}\\
&=\left(\sum_{m=1}^M\alpha_{m}\right)y_{\rm max}\\
&=y_{\rm max}\\
\therefore y_{\rm min}&\leq y_{\rm COM}\leq y_{\rm max}
\end{align*}
$$
以上より,$${\alpha_m\geq 0, \sum_{m=1}^M\alpha_m=1}$$は$${y_{\rm min}\leq y_{\rm COM}\leq y_{\rm max}}$$の必要条件である。
$${y_{\rm min}\leq y_{\rm COM}\leq y_{\rm max}}$$が成立するとする。
このとき,ある$${\mathbf{x}}$$ですべての$${y_m(\mathbf{x})}$$が等しい場合,
$$
\begin{align*}
y(\mathbf{x})&\leq\left(\sum_{m=1}^M\alpha_m\right)y(\mathbf{x})\leq y(\mathbf{x})\\
1&\leq\left(\sum_{m=1}^M\alpha_m\right)\leq 1\\
\therefore \sum_{m=1}^M\alpha_m&=1
\end{align*}
$$
$${\{\alpha_m\}}$$の最小値を$${\alpha_k}$$とする。
ある$${\mathbf{x}}$$で$${y_m(\mathbf{x})=0(m\neq k), y_k(\mathbf{x})\neq0}$$となる場合,
$$
\begin{align*}
0&\leq\alpha_ky_k(\mathbf{x})\\
\therefore\alpha_k&\geq 0
\end{align*}
$$
以上より,$${y_{\rm min}\leq y_{\rm COM}\leq y_{\rm max}}$$は$${\alpha_m\geq 0, \sum_{m=1}^M\alpha_m=1}$$の必要条件である。
Exercise (14.6)
$$
\begin{align*}
\frac{\partial E}{\partial\alpha_m}&=-\frac{1}{2}{\rm e}^{-\alpha_m/2}\sum_{n\in\mathcal{T}_m}w_n^{(m)}+\frac{1}{2}{\rm e}^{\alpha_m/2}\sum_{n\in\mathcal{M}_m}w_n^{(m)}+\left(\frac{1}{2}{\rm e}^{\alpha_m/2}+\frac{1}{2}{\rm e}^{-\alpha_m/2}\right)\sum_{n=1}^Nw_n^{(m)}I(y_m(\mathbf{x}_n)\neq t_n)-\frac{1}{2}{\rm e}^{-\alpha_m/2}\sum_{n=1}^Nw_n^{(m)}\\
&=-\frac{1}{2}{\rm e}^{-\alpha_m/2}\sum_{n=1}^Nw_n^{(m)}\left(1-I(y_m(\mathbf{x}_n)\neq t_n)\right)+\frac{1}{2}{\rm e}^{\alpha_m/2}\sum_{n=1}^Nw_n^{(m)}I(y_m(\mathbf{x}_n)\neq t_n)+\left(\frac{1}{2}{\rm e}^{\alpha_m/2}+\frac{1}{2}{\rm e}^{-\alpha_m/2}\right)\sum_{n=1}^Nw_n^{(m)}I(y_m(\mathbf{x}_n)\neq t_n)-\frac{1}{2}{\rm e}^{-\alpha_m/2}\sum_{n=1}^Nw_n^{(m)}\\
&=\left({\rm e}^{\alpha_m/2}+{\rm e}^{-\alpha_m/2}\right)\sum_{n=1}^Nw_n^{(m)}I(y_m(\mathbf{x}_n)\neq t_n)-{\rm e}^{-\alpha_m/2}\sum_{n=1}^Nw_n^{(m)}\\
&={\rm e}^{-\alpha_m/2}\left(\left({\rm e}^{\alpha_m}+1\right)\varepsilon_m-1\right)\sum_{n=1}^Nw_n^{(m)}\\
&=0\\
\varepsilon_m{\rm e}^{\alpha_m}&=1-\varepsilon_m\\
{\rm e}^{\alpha_m}&=\frac{1-\varepsilon_m}{\varepsilon_m}\\
\therefore \alpha_m&=\ln\left(\frac{1-\varepsilon_m}{\varepsilon_m}\right)
\end{align*}
$$
Exercise (14.7)
$$
\begin{align*}
\mathbb{E}_{\mathbf{x},t}\left[\exp(-t(y(\mathbf{x})+\delta y(\mathbf{x})))\right]-\mathbb{E}_{\mathbf{x},t}\left[\exp(-ty(\mathbf{x}))\right]&=\sum_{t}\int{\rm d}\mathbf{x}\left[\exp(-t(y(\mathbf{x})+\delta y(\mathbf{x})))-\exp(-ty(\mathbf{x}))\right]p(t|\mathbf{x})p(\mathbf{x})\\
&=\sum_{t}\int{\rm d}\mathbf{x}\exp(-ty(\mathbf{x}))p(t|\mathbf{x})p(\mathbf{x})\left[t\delta y(\mathbf{x})+\mathcal{O}(\delta y^2)\right]\\
&=\sum_{t}\int{\rm d}\mathbf{x}\left\{\exp(-y(\mathbf{x}))p(t=1|\mathbf{x})-\exp(y(\mathbf{x}))p(t=-1|\mathbf{x})\right\}p(\mathbf{x})\delta y(\mathbf{x})+\mathcal{O}(\delta y^2)\\
&\simeq\sum_{t}\int{\rm d}\mathbf{x}\left\{\exp(-y(\mathbf{x}))p(t=1|\mathbf{x})-\exp(y(\mathbf{x}))p(t=-1|\mathbf{x})\right\}p(\mathbf{x})\delta y(\mathbf{x})\\
&=0\\
\exp(-y(\mathbf{x}))p(t=1|\mathbf{x})&=\exp(y(\mathbf{x}))p(t=-1|\mathbf{x})\\
\exp(2y(\mathbf{x}))&=\frac{p(t=1|\mathbf{x})}{p(t=-1|\mathbf{x})}\\
\therefore y(\mathbf{x})&=\frac{1}{2}\ln\left\{\frac{p(t=1|\mathbf{x})}{p(t=-1|\mathbf{x})}\right\}
\end{align*}
$$
Exercise (14.8)
規格化された$${p(t|\mathbf{x})}$$が存在するためには
$$
\begin{align*}
\ln p(t|\mathbf{x})&={\rm e}^{-tf_m(\mathbf{x})}+\ln a
\end{align*}
$$
を満たす定数$${a}$$が存在する必要がある。
上式を変形して規格化条件を求めると,
$$
\begin{align*}
p(t|\mathbf{x})&=a{\rm e}^{{\rm e}^{-tf_m(\mathbf{x})}}\\
p(t=1|\mathbf{x})+p(t-1|\mathbf{x})&=a\left({\rm e}^{{\rm e}^{-f_m(\mathbf{x})}}+{\rm e}^{{\rm e}^{f_m(\mathbf{x})}}\right)\\
&=1
\end{align*}
$$
となり,$${a}$$が定数であることと矛盾する。
以上より,式(14.20)は確率モデルの対数尤度にも対応しない。
Exercise (14.9)
$$
\begin{align*}
\frac{1}{2}\sum_{n=1}^N\left(t_n-f_m(\mathbf{x}_n)\right)^2&=\frac{1}{2}\sum_{n=1}^N\left(t_n-\frac{1}{2}\sum_{l=1}^m\alpha_ly_l(\mathbf{x}_n)\right)^2\\
&=\frac{1}{2}\sum_{n=1}^N\left(t_n-\frac{1}{2}\sum_{l=1}^{m-1}\alpha_ly_l(\mathbf{x}_n)-\frac{\alpha_m}{2}y_m(\mathbf{x}_n)\right)^2\\
&=\frac{1}{2}\sum_{n=1}^N\left(t_n-f_{m-1}(\mathbf{x}_n)-\frac{\alpha_m}{2}y_m(\mathbf{x}_n)\right)^2\\
&=\frac{\alpha_m^2}{8}\sum_{n=1}^N\left(\frac{2}{\alpha_m}\left\{t_n-f_{m-1}(\mathbf{x}_n)\right\}-y_m(\mathbf{x}_n)\right)^2
\end{align*}
$$
となるため,$${y_m(\mathbf{x})}$$を$${\frac{2}{\alpha_m}\left\{t_n-f_{m-1}(\mathbf{x}_n)\right\}}$$にフィッティングすることに等しい。
Exercise (14.10)
誤差関数$${E}$$を
$$
\begin{align*}
E&:=\frac{1}{2}\sum_{n=1}^N(t-t_n)^2
\end{align*}
$$
と定義して,$${t}$$に関する微分が0となる条件を求めると,
$$
\begin{align*}
\frac{\partial E}{\partial t}&=\sum_{n=1}^N(t-t_n)\\
&=Nt-\sum_{n=1}^Nt_n\\
&=0\\
\therefore t&=\frac{1}{N}\sum_{n=1}^Nt_n
\end{align*}
$$
Exercise (14.11) - (14.17)
Exercise (14.11)
モデルAの最初の葉の条件を$${x\in\mathcal{R}_1}$$,2番目の葉の条件を$${x\notin\mathcal{R}_1}$$と表すことにする。
このとき,
$$
\begin{align*}
p(\mathcal{C}_2,x\in\mathcal{R}_1)&=p(\mathcal{C}_2|x\in\mathcal{R}_1)p(x\in\mathcal{R}_1)\\
&=\left(\frac{100}{400}\right)\left(\frac{400}{800}\right)\\
&=\frac{1}{8}\\
p(\mathcal{C}_1,x\notin\mathcal{R}_1)&=p(\mathcal{C}_1|x\notin\mathcal{R}_1)p(x\notin\mathcal{R}_1)\\
&=\left(\frac{100}{400}\right)\left(\frac{400}{800}\right)\\
&=\frac{1}{8}\\
\end{align*}
$$
となる。$${x\in\mathcal{R}_1}$$のときは$${\mathcal{C}_1}$$,$${x\notin\mathcal{R}_1}$$のときは$${\mathcal{C}_2}$$に分類すると誤り率が最小化できる。
その値は,
$$
\begin{align*}
p(\mathcal{C}_2,x\in\mathcal{R}_1)+p(\mathcal{C}_1,x\notin\mathcal{R}_1)&=\frac{1}{8}+\frac{1}{8}
&=\frac{1}{4}\\
\end{align*}
$$
一方,モデルBの最初の葉の条件を$${x\in\mathcal{R}_2}$$,2番目の葉の条件を$${x\notin\mathcal{R}_2}$$と表すことにする。
このとき,
$$
\begin{align*}
p(\mathcal{C}_1,x\in\mathcal{R}_2)&=p(\mathcal{C}_1|x\in\mathcal{R}_2)p(x\in\mathcal{R}_2)\\
&=\left(\frac{200}{600}\right)\left(\frac{600}{800}\right)\\
&=\frac{1}{4}\\
p(\mathcal{C}_2,x\notin\mathcal{R}_2)&=p(\mathcal{C}_2|x\notin\mathcal{R}_2)p(x\notin\mathcal{R}_2)\\
&=\left(\frac{0}{200}\right)\left(\frac{200}{800}\right)\\
&=0\\
\end{align*}
$$
となる。$${x\in\mathcal{R}_2}$$のときは$${\mathcal{C}_2}$$,$${x\notin\mathcal{R}_2}$$のときは$${\mathcal{C}_1}$$に分類すると誤り率が最小化できる。
その値は,
$$
\begin{align*}
p(\mathcal{C}_1,x\in\mathcal{R}_2)+p(\mathcal{C}_2,x\notin\mathcal{R}_2)&=\frac{1}{4}+0\\
&=\frac{1}{4}\\
\end{align*}
$$
となる。
以上より,誤り率はモデルAとモデルBで同じになる。
式(14.32)を用いてクロスエントロピーを計算すると,
$$
\begin{align*}
Q^{(A)}(T)&=-p(\mathcal{C}_1,x\in\mathcal{R}_1)\ln p(\mathcal{C}_1,x\in\mathcal{R}_1)-p(\mathcal{C}_2,x\in\mathcal{R}_1)\ln p(\mathcal{C}_2,x\in\mathcal{R}_1)-p(\mathcal{C}_1,x\notin\mathcal{R}_1)\ln p(\mathcal{C}_1,x\notin\mathcal{R}_1)-p(\mathcal{C}_2,x\notin\mathcal{R}_1)\ln p(\mathcal{C}_2,x\notin\mathcal{R}_1)\\
&=-\frac{3}{8}\ln\frac{3}{8}-\frac{1}{8}\ln\frac{1}{8}-\frac{1}{8}\ln\frac{1}{8}-\frac{3}{8}\ln\frac{3}{8}\\
&=3\ln 2-\frac{3}{4}\ln 3\\
Q^{(B)}(T)&=-p(\mathcal{C}_1,x\in\mathcal{R}_2)\ln p(\mathcal{C}_1,x\in\mathcal{R}_2)-p(\mathcal{C}_2,x\in\mathcal{R}_2)\ln p(\mathcal{C}_2,x\in\mathcal{R}_2)-p(\mathcal{C}_1,x\notin\mathcal{R}_2)\ln p(\mathcal{C}_1,x\notin\mathcal{R}_2)-p(\mathcal{C}_2,x\notin\mathcal{R}_2)\ln p(\mathcal{C}_2,x\notin\mathcal{R}_2)\\
&=-\frac{1}{4}\ln\frac{1}{4}-\frac{1}{2}\ln\frac{1}{2}-\frac{1}{4}\ln\frac{1}{4}-0\\
&=\frac{3}{2}\ln 2\\
\therefore Q^{(B)}(T)-Q^{(A)}(T)&=\frac{3}{4}\ln 3-\frac{3}{2}\ln 2\\
&<0
\end{align*}
$$
式(14.33)を用いてジニ係数を計算すると,
$$
\begin{align*}
Q^{(A)}(T)&=p(\mathcal{C}_1,x\in\mathcal{R}_1)(1- p(\mathcal{C}_1,x\in\mathcal{R}_1))+p(\mathcal{C}_2,x\in\mathcal{R}_1)(1-p(\mathcal{C}_2,x\in\mathcal{R}_1))+p(\mathcal{C}_1,x\notin\mathcal{R}_1)(1- p(\mathcal{C}_1,x\notin\mathcal{R}_1))+p(\mathcal{C}_2,x\notin\mathcal{R}_1)(1-p(\mathcal{C}_2,x\notin\mathcal{R}_1))\\
&=\frac{3}{8}\left(1-\frac{3}{8}\right)+\frac{1}{8}\left(1-\frac{1}{8}\right)+\frac{1}{8}\left(1-\frac{1}{8}\right)+\frac{3}{8}\left(1-\frac{3}{8}\right)\\
&=\frac{11}{16}\\
Q^{(B)}(T)&=p(\mathcal{C}_1,x\in\mathcal{R}_2)(1- p(\mathcal{C}_1,x\in\mathcal{R}_2))+p(\mathcal{C}_2,x\in\mathcal{R}_2)(1-p(\mathcal{C}_2,x\in\mathcal{R}_2))+p(\mathcal{C}_1,x\notin\mathcal{R}_2)(1- p(\mathcal{C}_1,x\notin\mathcal{R}_2))+p(\mathcal{C}_2,x\notin\mathcal{R}_2)(1-p(\mathcal{C}_2,x\notin\mathcal{R}_2))\\
&=\frac{1}{4}\left(1-\frac{1}{4}\right)+\frac{1}{2}\left(1-\frac{1}{2}\right)+\frac{1}{4}\left(1-\frac{1}{4}\right)+0\\
&=\frac{5}{8}\\
\therefore Q^{(B)}(T)-Q^{(A)}(T)&=-\frac{1}{16}\\
&<0
\end{align*}
$$
Exercise (14.12)
$${t}$$を$${L}$$次元ベクトル$${\mathbf{t}}$$に拡張した場合,
$$
\begin{align*}
p(\mathbf{t}|\boldsymbol\theta)&=\sum_{k=1}^K\pi_k\mathcal{N}\left(\mathbf{t}\left|\mathbf{W}_k^{\rm T}\boldsymbol\phi,\beta^{-1}\mathbf{I}\right.\right)
\end{align*}
$$
となる。ここで,$${\mathbf{W}_k}$$は$${M\times L}$$の行列である。
同様に式(14.35)~式(14.44)を拡張すると,
$$
\begin{align*}
\ln p(\mathbf{T}|\boldsymbol\theta)&=\sum_{n=1}^N\ln\left(\sum_{k=1}^K\pi_k\mathcal{N}\left(\mathbf{t}_n\left|\mathbf{W}_k^{\rm T}\boldsymbol\phi_n,\beta^{-1}\mathbf{I}\right.\right)\right)\\
\ln p(\mathbf{T},\mathbf{Z}|\boldsymbol\theta)&=\sum_{n=1}^N\sum_{k=1}^Kz_{nk}\ln\left\{\pi_k\mathcal{N}\left(\mathbf{t}_n\left|\mathbf{W}_k^{\rm T}\boldsymbol\phi_n,\beta^{-1}\mathbf{I}\right.\right)\right\}\\
\gamma_{nk}&=\frac{\pi_k\mathcal{N}\left(\mathbf{t}_n\left|\mathbf{W}_k^{\rm T}\boldsymbol\phi_n,\beta^{-1}\mathbf{I}\right.\right)}{\sum_j\pi_j\mathcal{N}\left(\mathbf{t}_n\left|\mathbf{W}_j^{\rm T}\boldsymbol\phi_n,\beta^{-1}\mathbf{I}\right.\right)}\\
Q(\boldsymbol\theta,\boldsymbol\theta^{\rm old})&=\sum_{n=1}^N\sum_{k=1}^K\gamma_{nk}\left\{\ln\pi_k+\ln \mathcal{N}\left(\mathbf{t}_n\left|\mathbf{W}_k^{\rm T}\boldsymbol\phi_n,\beta^{-1}\mathbf{I}\right.\right)\right\}\\
\mathbf{W}_k&=\left(\boldsymbol\Phi^{\rm T}\mathbf{R}_k\boldsymbol\Phi\right)^{-1}\boldsymbol\Phi^{\rm T}\mathbf{R}_k\mathbf{T}\\
\frac{1}{\beta}&=\frac{1}{N}\sum_{n=1}^N\sum_{k=1}^K\gamma_{nk}\left\|\mathbf{t}_n-\mathbf{W}_k^{\rm T}\boldsymbol\phi_n\right\|^2
\end{align*}
$$
Exercise (14.13)
$$
\begin{align*}
\ln p(\textsf{\textbf{t}},\mathbf{Z}|\boldsymbol\theta)&=\ln p(\textsf{\textbf{t}}|\mathbf{Z},\boldsymbol\theta)p(\mathbf{Z})\\
&=\ln\prod_{n=1}^N\left\{p(t_n|\mathbf{z}_n,\boldsymbol\theta)\right\}\left\{p(\mathbf{z}_n)\right\}\\
&=\ln\prod_{n=1}^N\left\{\prod_{k=1}^K\mathcal{N}(t_n|\boldsymbol\phi_n,\beta^{-1})^{z_{nk}}\right\}\left\{\prod_{k=1}^K\pi_k^{z_{nk}}\right\}\\
&=\ln\prod_{n=1}^N\prod_{k=1}^K\left\{\pi_k\mathcal{N}(t_n|\boldsymbol\phi_n,\beta^{-1})\right\}^{z_{nk}}\\
&=\sum_{n=1}^N\sum_{k=1}^Kz_{nk}\ln\left\{\pi_k\mathcal{N}(t_n|\boldsymbol\phi_n,\beta^{-1})\right\}
\end{align*}
$$
Exercise (14.14)
ラグランジュの未定乗数法を用いて,
$$
\begin{align*}
\widetilde{Q}(\boldsymbol\theta,\boldsymbol\theta^{\rm old})&:=Q(\boldsymbol\theta,\boldsymbol\theta^{\rm old})+\lambda\left(\sum_{k=1}^K\pi_k-1\right)\\
&=\sum_{n=1}^N\sum_{k=1}^K\gamma_{nk}\ln\pi_k+\lambda\left(\sum_{k=1}^K\pi_k-1\right)+{\rm (others)}
\end{align*}
$$
に対する$${\{\pi_k\}}$$の最適解を求める。
$${\widetilde{Q}(\boldsymbol\theta,\boldsymbol\theta^{\rm old})}$$を$${\pi_k}$$で微分し,0となる条件を求めると,
$$
\begin{align*}
\frac{\partial\widetilde{Q}(\boldsymbol\theta,\boldsymbol\theta^{\rm old})}{\partial\pi_k}&=\frac{\sum_{n=1}^N\gamma_{nk}}{\pi_k}+\lambda\\
&=0\\
\therefore \pi_k&=-\frac{\sum_{n=1}^N\gamma_{nk}}{\lambda}
\end{align*}
$$
$${\{\pi_k\}}$$の規格化条件により,
$$
\begin{align*}
\sum_{k=1}^K\pi_k&=-\frac{\sum_{k=1}^K\sum_{n=1}^N\gamma_{nk}}{\lambda}\\
&=-\frac{\sum_{n=1}^N1}{\lambda}\\
&=-\frac{N}{\lambda}\\
&=1\\
\therefore \lambda&=-N\\
\pi_k&=\frac{1}{N}\sum_{n=1}^N\gamma_{nk}
\end{align*}
$$
Exercise (14.15)
新しいデータ$${\hat{\mathbf{x}}}$$に対する$${t}$$の条件付き期待値は
$$
\begin{align*}
\mathbb{E}[t|\hat{\boldsymbol\phi},\boldsymbol\theta]&=\int{\rm d}ttp(t|\hat{\boldsymbol\phi},\boldsymbol\theta)\\
&=\sum_{k=1}^K\pi_k\int{\rm d}ttp(t|\hat{\boldsymbol\phi},\mathbf{w}_k,\beta)\\
&=\sum_{k=1}^K\pi_k\mathbb{E}[t|\hat{\boldsymbol\phi},\mathbf{w}_k,\beta]
\end{align*}
$$
となり,各成分の確率に対する条件付き期待値の重ね合わせで表せられる。
Exercise (14.16)
式(14.45)を$${C(\geq 2)}$$個の分類問題に拡張すると,
$$
\begin{align*}
p(\mathbf{t}|\boldsymbol\phi,\boldsymbol\theta)&=\sum_{k=1}^K\pi_k\prod_{c=1}^Cy_{kc}^{t_c}\\
y_{kc}&=\frac{\exp(\mathbf{w}_{kc}^{\rm T}\boldsymbol\phi)}{\sum_j\exp(\mathbf{w}_{kj}^{\rm T}\boldsymbol\phi)}
\end{align*}
$$
となる。
対応する$${Q(\boldsymbol\theta,\boldsymbol\theta^{\rm old})}$$は,
$$
\begin{align*}
Q(\boldsymbol\theta,\boldsymbol\theta^{\rm old})&=\mathbb{E}\left[\ln p(\mathbf{T},\mathbf{Z}|\boldsymbol\theta)\right]\\
&=\mathbb{E}\left[\ln \prod_{n=1}^N\prod_{k=1}^K\left\{\pi_k\prod_{c=1}^Cy_{nkc}^{t_{nc}}\right\}^{z_{nk}}\right]\\
&=\sum_{n=1}^N\sum_{k=1}^K\mathbb{E}\left[z_{nk}\right]\left\{\ln\pi_k+\sum_{c=1}^Ct_{nc}\ln y_{nkc}\right\}\\
&=\sum_{n=1}^N\sum_{k=1}^K\gamma_{nk}\left\{\ln\pi_k+\sum_{c=1}^Ct_{nc}\ln y_{nkc}\right\}\\
\end{align*}
$$
となる。
$${\{\pi_k\}}$$の更新は二値分類の場合と同じなので,式(14.50)式をそのまま利用できる。
一方,$${\mathbf{w}_{kc}}$$の更新については,
$$
\begin{align*}
\nabla_{kc}Q(\boldsymbol\theta,\boldsymbol\theta^{\rm old})&=\sum_{n=1}^N\gamma_{nk}\sum_{c=1}^Ct_{nc}\frac{\nabla_{kc} y_{nkc}}{y_{nkc}}\\
&=\sum_{n=1}^N\gamma_{nk}\sum_{c=1}^Ct_{nc}(1-y_{nkc})\boldsymbol\phi_n\\
\mathbf{H}_{kc}&=-\nabla_{kc}\nabla_{kc}Q(\boldsymbol\theta,\boldsymbol\theta^{\rm old})\\
&=\sum_{n=1}^N\gamma_{nk}\sum_{c=1}^Ct_{nc}y_{nkc}(1-y_{nkc})\boldsymbol\phi_n\boldsymbol\phi_n^{\rm T}
\end{align*}
$$
Exercise (14.17)
$${\psi_k(t|\mathbf{x})=\sum_{l=1}^L\pi_{kl}\varphi_{kl}(t|\mathbf{x})}$$とおくと,
$$
\begin{align*}
p(t|\mathbf{x})&=\sum_{k=1}^K\pi_k\psi_k(t|\mathbf{x})\\
&=\sum_{k=1}^K\pi_k\left(\sum_{l=1}^L\pi_{kl}\varphi_{kl}(t|\mathbf{x})\right)\\
&=\sum_{k=1}^K\sum_{l=1}^L\left(\pi_k\pi_{kl}\right)\varphi_{kl}(t|\mathbf{x})\\
\end{align*}
$$
となるため,$${K\times L}$$個の単層混合モデルとみなすことができる。
$${\{\pi_k\}}$$が$${\mathbf{x}}$$の関数であるとき,$${\psi_k(t|\mathbf{x})=\sum_{l=1}^L\pi_{kl}(\mathbf{x})\varphi_{kl}(t|\mathbf{x})}$$とおくと,
$$
\begin{align*}
p(t|\mathbf{x})&=\sum_{k=1}^K\pi_k(\mathbf{x})\psi_k(t|\mathbf{x})\\
&=\sum_{k=1}^K\pi_k(\mathbf{x})\left(\sum_{l=1}^L\pi_{kl}(\mathbf{x})\varphi_{kl}(t|\mathbf{x})\right)\\
&=\sum_{k=1}^K\sum_{l=1}^L\left(\pi_k(\mathbf{x})\pi_{kl}(\mathbf{x})\right)\varphi_{kl}(t|\mathbf{x})\\
\end{align*}
$$
となるため,$${K\times L}$$個の単層混合モデルとみなすことができる。
$$
\begin{align*}
p(t|\mathbf{x})&=\sigma(\mathbf{v}_1^{\rm T}\mathbf{x})\psi_1(t|\mathbf{x})+(1-\sigma(\mathbf{v}_1^{\rm T}\mathbf{x}))\psi_2(t|\mathbf{x})\\
&=\sigma(\mathbf{v}_1^{\rm T}\mathbf{x})\psi_1(t|\mathbf{x})+(1-\sigma(\mathbf{v}_1^{\rm T}\mathbf{x}))\left\{\sigma(\mathbf{v}_2^{\rm T}\mathbf{x})\varphi_1(t|\mathbf{x})+(1-\sigma(\mathbf{v}_2^{\rm T}\mathbf{x}))\varphi_2(t|\mathbf{x})\right\}\\
&=\sigma(\mathbf{v}_1^{\rm T}\mathbf{x})\psi_1(t|\mathbf{x})+(1-\sigma(\mathbf{v}_1^{\rm T}\mathbf{x}))\sigma(\mathbf{v}_2^{\rm T}\mathbf{x})\varphi_1(t|\mathbf{x})+(1-\sigma(\mathbf{v}_1^{\rm T}\mathbf{x}))(1-\sigma(\mathbf{v}_2^{\rm T}\mathbf{x}))\varphi_2(t|\mathbf{x})
\end{align*}
$$
の場合,上式の混合係数は3成分からなるソフトマックス関数にはならない。
そのため,混合係数がシグモイド関数やソフトマックス関数で与えられた場合,多層混合モデルを単層混合モデルとみなすことはできない。