統計的推定:最尤推定 ロジスティック回帰

2クラス分類に適用されることの多いロジスティック回帰は、シグモイド関数$${\displaystyle{f(x)=\frac{1}{1-\exp(-x)}}}$$によって、出力が$${(0,1)}$$内の確率値に変換される。この関数による出力値$${\hat{y}}$$はデータ$${x}$$が与えられた時に$${y=1}$$となるクラスになる確率$${p(y=1|x)}$$、または、$${y=0}$$となるクラスになる確率$${p(y=0|x)}$$で扱われる。
よって、$${n}$$個のデータが与えられた時の尤度関数は、
$${L=\Pi^n_{i=1}p(y_i=1|x_i)^{y_i}p(y_i=0|x_i)^{1-y_i}}$$
で与えられる。
確率は$${1}$$より小さいため、対数を取り積を和に直す対数尤度を使い、
$${\log L=\sum ^n_{i=1} y_i \log p(y_i=1|x_i) + (1-y_i)\log p(y_i=0|x_i)}$$
となる。ここで、$${p(y=0|x)=1-p(y=1|x)=1-\hat{y}}$$を使えば、
$${\log L=\sum ^n_{i=1} y_i \log \hat{y}_i + (1-y_i)\log(1-\hat{y}_i)}$$
となる。
 ここで、ジグモイド関数の変数$${x}$$は、機械学習において、入力信号$${{\bm x}=(x_1,\cdots,x_d)}$$の重みとバイアスで、$${{\bm w}^T{\bm x}+{\bm b}}$$で与えられる。
 よって、ロジスティック回帰の最尤推定は、尤度が最大になるパラメータ$${{\bm w}, {\bm b}}$$を推定することとなり、オッズ$${\displaystyle{\frac{\hat{y}}{1-\hat{y}}=\frac{f(x)}{1-f(x)}=\frac{\frac{1}{1-e^{-x}}}{1-\frac{1}{1-e^{-x}}}=e^x=\exp({\bm w}^T{\bm x}+{\bm b})}}$$
でパラメータの解釈を行う。
 ジグモイド関数の微分は、
$${\displaystyle{\frac{d}{dx}\frac{1}{1-e^{-x}}=\frac{e^{-x}}{(1+e^{-x})^2}=f(x)(1-f(x))}}$$
と、$${f(x)}$$の関数として与えられる。
 負の対数尤度関数$${\mathcal{L}=-\log L=-\sum ^n_{i=1} y_i \log \hat{y}_i + (1-y_i)\log(1-\hat{y}_i)}$$の最小値問題をして扱うと、$${z_i={\bm w}^T{\bm x}_i+{\bm b}}$$として、
$${\hat{y}_i=\displaystyle{\frac{1}{1-e^{-z_i}}}}$$であるから、
$${\displaystyle{\frac{\partial \mathcal{L}}{\partial w_i}= \frac{\partial \mathcal{L}}{\partial \hat{y}}\frac{\partial \hat{y}}{\partial z} \frac{\partial z}{\partial w_i} =\left( -\frac{y}{\hat{y}}+\frac{1-y}{1-\hat{y}}\right)\cdot(1-\hat{y})\hat{y}\cdot x_i }}$$
で与えられることになる。

いいなと思ったら応援しよう!