アセットマネージャーのためのファイナンス機械学習:シャノン・エントロピー

相関係数は、非線形関係を無視し、外れ値に大きく影響を受ける。また任意の二つの確率変数の相関係数は、この2変数が2変量正規分布に従うという前提のもとに計算されており、正規分布に従わない確率変数の場合、相関係数に意味はない。
 この弱点を克服する概念として、確率変数の不確さの尺度であるエントロピーと、同じ確率空間上で定義されていなくても通用する結合エントロピーを導入する。
 集合$${S_X}$$から確率$${P[x]}$$で値$${x}$$をとる離散確率変数を$${X}$$とする。
 この$${X}$$のエントロピーを
$${H[X]=-\displaystyle{\Sigma_{x\in S_X}p[x]\log [p[x]]}}$$
と定義する。
 このエントロピーの最大値は、$${X}$$が一様分布している時、すなわち$${p[x]=1/\|S_X\|}$$で、 $${log[\|S_X\|]}$$である(例:サイコロ)。

 また、集合$${S_Y}$$から確率$${P[y]}$$で値$${y}$$をとる離散確率変数を$${Y}$$と定義する。$${Y}$$は$${X}$$と同じ確率空間で定義される必要はない。この二つの集合の結合エントロピーは、
$${H[X,Y]=-\displaystyle{\Sigma_{x,y \in S_X S_Y}p[x,y]\log [p[x,y]]}}$$
と与えられる。
 このエントロピーは、離散確率変数でのみ通用することから、連続変数の場合は確率変数を離散化する必要がある。
$${H[X,Y]=H[Y,X]}$$
$${H[X,X]=H[X]}$$
$${H[X,Y]\ge \max\{H[X],H[Y]\}}$$
$${H[X,Y] \le H[X]+H[Y]}$$

 $${Y}$$が与えられた時の$${X}$$の条件付きエントロピーは以下のように与えられる。
$${H[X|Y]=H[X,Y]-H[Y]=-\displaystyle{\Sigma_{y\in S_Y}p[y] \Sigma_{x\in S_X}p[x|Y=y]\log [p[x|Y=y]]}}$$
$${p[x|Y=y]}$$とは、$${Y}$$が$${y}$$の値をとった時に、$${X}$$が$${x}$$の値を取る確率である。
 これより、$${H[X|Y]}$$は、$${Y}$$の値がわかっている時の$${X}$$の期待不確実性と解釈される。
 よって、$${H[X|X]=0}$$であり、$${H[X] \ge H[X|Y]}$$
 
 

いいなと思ったら応援しよう!