統計的推定:最尤推定 多変数正規分布

正規分布$${\mathcal{N}({\bm \mu,\Sigma})}$$に従うデータ$${({\bm x}_i, i=1,\cdots, n; {\bm x}_i=(x_{i1},\cdots, x_{id})^T)}$$の尤度は、
それぞれの確率密度関数が$${f({\bm x}_i)=\displaystyle{ \frac{1}{ (2\pi)^{d/2}\sqrt{det \Sigma}} \exp\left(-\frac{({\bm x}_i-{\bm \mu})^T\Sigma^{-1}({\bm x}_i-{\bm \mu})}{2}\right) }}$$で与えられることから、
$${L({\bm \mu,\Sigma})=\displaystyle{\frac{1}{ (2\pi)^{nd/2}(det \Sigma)^{n/2}}\Pi_{i=1}^n \exp\left(-\frac{({\bm x}_i-{\bm \mu})^T\Sigma^{-1}({\bm x}_i-{\bm \mu})}{2}\right) }}$$
となる。
これから対数尤度は
$${\log L({\bm \mu,\Sigma})=\displaystyle{-\frac{nd}{2}\log(2\pi)-\frac{n}{2}\log(det \Sigma)-\frac{1}{2}\sum_{i=1}^n({\bm x}_i-{\bm \mu})^T\Sigma^{-1}({\bm x}_i-{\bm \mu})}}$$
で与えられる。
$${{\bm \mu}}$$について、最尤推定を行えば、
$${\displaystyle{ \frac{\partial\log L({\bm \mu,\Sigma}) }{\partial {\bm \mu}} =-\frac{1}{2}\sum_{i}(-{\bm x}_i^{T} \Sigma^{-1} - \Sigma^{-1} {\bm x}_i + 2\Sigma^{-1} {\bm \mu}) }}$$
$${\displaystyle{= \Sigma^{-1} \sum_{i}{\bm x}_i -n\Sigma^{-1} {\bm \mu} }}$$
より、
$${ {\bm \mu}_{ML}= \displaystyle{ \frac{1}{n}\sum_i{\bm x}_i }}$$
で、標本の平均値となる。
また、$${{\Sigma}}$$についての最尤推定は、
$${\displaystyle{ \frac{\partial\log L({\bm \mu,\Sigma}) }{\partial \Sigma} =-\frac{n}{2} \frac{\partial }{\partial \Sigma} \log(det \Sigma)- \frac{1}{2} \frac{\partial }{\partial \Sigma} \sum_i ( {\bm x}_i-{\bm \mu})^T\Sigma^{-1}({\bm x}_i-{\bm \mu})}}$$、
ここで第一項は、$${n \times n}$$の正方行列$${{\bm A}}$$の行列式が余因子展開により、$${A_{ij}}$$は$${{\bm A}}$$の$${(i,j)}$$成分で、$${A^{(i,j)}}$$は行列$${\bm A}$$の$${i}$$行$${j}$$列を除いた行列として、
$${det {\bm A}=\sum_{j=1}^{n}(-1)^{i+j}A_{ij}det({\bm A}^{(i,j)})}$$
と、示せることから、
$${\displaystyle{\frac{\partial det {\bm A}}{\partial A_{ij}}=(-1)^{i+j}det({\bm A}^{(i,j)})}}$$、
余因子$${C_{ij}=(-1)^{i+j}det({\bm A}^{(i,j)})}$$から、$${\bm{A}^{-1}}$$が、$${\displaystyle{\bm{A}^{-1}=\frac{{\bm C}^T}{det {\bm A}}}}$$と与えられることを用いれば、
$${\displaystyle{\frac{\partial det {\bm A}}{\partial {\bm A}}=({\bm A}^{-1})^T det {\bm A}}}$$より、また$${\Sigma}$$は対称行列であるから、
$${\displaystyle{\frac{\partial }{\partial \Sigma} \log(det \Sigma)=\frac{1}{det \Sigma}\frac{\partial det \Sigma}{\partial \Sigma} =(\Sigma)^{-1}}}$$
となる。
第二項は、ベクトル$${{\bm x}}$$と行列$${{\bm \Sigma}}$$との
$${{\bm x}^T{\bm A}^{-1}{\bm x}}$$はスカラーであり、$${Tr({\bm x}^T{\bm A}^{-1}{\bm x})}$$とも書け、トレースに関しては、行列積の順番を変えても答えは変わらないことから、
$${\displaystyle{\frac{\partial }{\partial \Sigma} \sum_i ( {\bm x}_i-{\bm \mu})^T\Sigma^{-1}({\bm x}_i-{\bm \mu})=\sum_i \frac{\partial }{\partial \Sigma}\left( \Sigma^{-1} ( {\bm x}_i-{\bm \mu})^T ( {\bm x}_i-{\bm \mu})\right)}}$$、よって、二つの行列の積のトレース$${Tr{\bm A}^{-1}{\bm B}}$$の$${{\bm A}}$$による微分となる。
ここで、$${{\bm A}{\bm A}^{-1}={\bm I}}$$の両辺を$${{\bm A}}$$で微分すれば、
$${\displaystyle{\frac{\partial{\bm A}{\bm A}^{-1} }{\partial {\bm A}} ={\bm A}^{-1} + {\bm A}\frac{\partial{\bm A}^{-1} }{\partial {\bm A}} =0}}$$より、$${\displaystyle{\frac{\partial{\bm A}^{-1} }{\partial {\bm A}} = -{\bm A}^{-1}{\bm A}^{-1}} }$$
よって、
$${\displaystyle{\frac{\partial }{\partial {\bm A}}Tr({\bm A}^{-1} {\bm B}) =-Tr(-{\bm A}^{-1}{\bm A}^{-1}{\bm B})=-Tr({\bm A}^{-1}{\bm B}{\bm A}^{-1}) }}$$から、
$${\displaystyle{\frac{\partial }{\partial \Sigma} \sum_i ( {\bm x}_i-{\bm \mu})^T\Sigma^{-1}({\bm x}_i-{\bm \mu})=\Sigma^{-1}\left(\sum_i( {\bm x}_i-{\bm \mu})( {\bm x}_i-{\bm \mu})^T\right)\Sigma^{-1} }}$$
この二つを合わせて、
$${\displaystyle{ \frac{\partial\log L({\bm \mu,\Sigma}) }{\partial \Sigma} =-\frac{n}{2}\Sigma^{-1}+ \frac{1}{2}\Sigma^{-1}\left(\sum_i( {\bm x}_i-{\bm \mu})( {\bm x}_i-{\bm \mu})^T\right)\Sigma^{-1} }}$$
これから、
$${\Sigma_{ML}=\displaystyle{\frac{1}{n} \sum_i( {\bm x}_i-{\bm \mu})( {\bm x}_i-{\bm \mu})^T}}$$
が得られる。
$${\bm \mu, \Sigma}$$が平均と分散であるから、この結果は当然でもある。


この記事が気に入ったらサポートをしてみませんか?