統計的推定:最尤推定 Maximum likelihood estimation ベルヌーイ分布、マルチヌーイ分布、1変数正規分布に従う標本の場合

標本$${\mathcal{D}({\bm x})}$$が、パラメータ$${\theta}$$で記述される確率密度関数$${g({\bm x};\theta)}$$から発生する尤度関数$${L(\theta)}$$を最大にする$${\hat{\theta}_{ML}}$$を決める。
尤度関数は
$${L({\theta})=\displaystyle{\Pi^n_{i=1}g(x_i;\theta)}}$$
で与えられ、
$${\hat{\theta}_{ML}=\underset{\theta}{\arg\max}L(\theta)}$$と記述される。
 確率密度関数が$${g(x_i;\theta)<<1}$$の時、かけ上げていくと非常に小さい値となるため、対数をとり、対数尤度関数で扱い、
$${\log L({\theta})=\log \sum^n_{i=1}g(x_i;\theta)}$$、
$${\hat{\theta}_{ML}=\displaystyle{\underset{\theta}{\arg\max}\log L(\theta)=\underset{\theta}{\arg\max}\sum ^n_{i=1}\log g(x_i;\theta)}}$$
となる。

ベルヌーイ分布に従う標本の最尤推定

成功確率$${p}$$のベルヌーイ分布$${g(x_i;p)=p^x(1-x)^{1-x}}$$に従う2値データを$${\mathcal{D}=(x_1,\cdots,x_n)}$$とする。この尤度関数は、
$${L(p)=\Pi^{n}_{i=1}p^{x_i}(1-p)^{1-x_i}}$$、対数尤度関数は、
$${\log L(p)=\sum^{n}_{i=1}(x_i \log p + (1-x_i)\log(1-p) )}$$で与えられ、ここれを最大にする$${\hat{p}_{ML}}$$は、
$${\displaystyle{\frac{\partial \log L(p)}{\partial p} = \sum^n_{i=1}\left( \frac{x_i}{p} - \frac{1-x_i}{1-p}\right)=\frac{1}{p(1-p)}\sum^n_{i=1}(x_i-p )}}$$
$${\displaystyle{= \frac{1}{p(1-p)}(\sum^n_{i=1}x_i -np)}}$$より、
$${\hat{p}_{ML}=\displaystyle{\frac{\sum^n_{i=1}x_i}{n}}}$$

マルチヌーイ分布に従う標本の最尤推定

成分のうち一つだけが$${1}$$で後は$${0}$$のベクトルをワンホットベクトルと呼ぶ。この$${k}$$次元のワンホットベクトルが$${n}$$個のデータ$${\mathcal{D}=({\bm x_1},\cdots,{\bm x_n})}$$が、それぞれマルチヌーイ分布$${\displaystyle{g({\bm x};{\bm p})=\Pi^k_{j=1}p_j^{x_j} }}$$に従うとする。
$${{\bm x}_i}$$の$${j}$$成分を$${x_{ij}}$$と書き、各成分の確率$${{\bm p}=(p_1,\cdots,p_k)^T}$$で、$${\displaystyle{\sum^k_{j=1}p_j=1, 0 \le p_j \le 1 , j=1,\cdots,k}}$$である。
この尤度関数は、
$${L({\bm p})=\displaystyle{\Pi^{n}_{i=1}\Pi^k_{j=1}p_jx_{ij}}}$$で、対数尤度関数は、
$${\log L({\bm p})=\displaystyle{\sum^{n}_{i=1}\sum^{k}_{j=1}x_{ij}\log p_j }}$$となる。
 この負をとった$${-\log L({\bm p})=-\displaystyle{\sum^{n}_{i=1}\sum^{k}_{j=1}x_{ij}\log p_j }}$$は交差エントロピーと同じである。
 よって、マルチヌーイ分布の負の最尤推定は、交差エントロピーの最小化と同値である。

1変数正規分布に従う標本の最尤推定

実数値標本$${\mathcal{D}=(x_1,\cdots,x_n)}$$が、平均$${\mu}$$、分散$${1}$$の1変数正規分布に従っているとする。1変数正規分布の確率密度関数は$${\displaystyle{g(x;\mu)=\frac{1}{\sqrt{2\pi}}\exp \left(-\frac{(x-\mu)^2}{2}\right)}}$$であるから、この標本の尤度関数は、
$${L(\mu)=\Pi^n_{i=1}f(x_i;\mu)=\displaystyle{\frac{1}{(2\pi)^{n/2}}\exp\left(-\frac{1}{2}\sum^n_{i=1} (x_i-\mu)^2\right)}}$$
と与えられる。
これから最尤度を与える$${\hat{\mu}_{ML}}$$は、$${\sum^n_{i=1} (x_i-\mu)^2}$$を最小にする$${\mu}$$であり、
$${\displaystyle{\frac{\partial \sum^n_{i=1} (x_i-\mu)^2}{\partial \mu}=2\sum^n_{i=1} (x_i-\mu)=2(\sum^n_{i=1} x_i - n\mu)}}$$より、
$${\hat{\mu}_{ML}=\displaystyle{\frac{\sum^n_{i=1} x_i}{n}}}$$
と与えられる。
 この作業は、最小二乗和誤差の最小化と同じであり、最尤推定量は、標本の平均値で与えられる。


いいなと思ったら応援しよう!