アセットマネージャーのためのファイナンス機械学習:距離測度 相関を基とした測度
相関は線形依存性を測る有用な尺度で、システムの重要な構造的情報を明らかにするが、相関では扱えない共依存性を見るために、集合に直感的なトポロジーを導入する。
サイズ$${T}$$の乱数列、$${{\bf X}}$$と$${{\bf Y}}$$について、
$${ \sigma [{\bf X},{\bf Y}] = \rho [{\bf X},{\bf Y}] \sigma [{\bf X}] \sigma [{\bf Y}] }$$が成り立つとする。
この相関推定値$${\rho [{\bf X},{\bf Y}]}$$を考える。
$${ \sigma [{\bf X},{\bf Y}]}$$は共分散、$${\sigma [{\bf X}]}$$は $${{\bf X}}$$の標準偏差である。
この時、$${{\bf X}}$$と$${{\bf Y}}$$で定義される$${d_{\rho}[{\bf X},{\bf Y}]=\displaystyle{ \sqrt{\frac{1}{2}(1-\rho [{\bf X},{\bf Y}])} } }$$は、距離測度である。
証明
$${\bf X}$$と$${\bf Y}$$をそれぞれ標準化して、
$${x_i=\displaystyle{ \frac{X_i-\bar{X}}{\sigma [\bf X]} }}$$、$${y_i=\displaystyle{ \frac{Y_i-\bar{Y}}{\sigma [\bf Y]} }}$$と書けば、$${\rho[\bf X,Y]=\rho[\bf x,y]}$$である。
また、二つのベクトル$${{\bf x}}$$と$${\bf y}$$のユークリッド距離を$${d[\bf x,y]}$$とすれば、
$${d[\bf x,y]=\displaystyle{ \sqrt{\Sigma_{i}^{T}(x_i-y_i)^2} = \sqrt{ \Sigma_{i}^{T}x_{i}^2 + \Sigma_{i}^{T}y_{i}^2 - 2\Sigma_{i}^{T}x_{i} y_{i}} }}$$
$${ \displaystyle{ = \sqrt{T+T - 2T\sigma[\bf x, y]} }}$$
$${\displaystyle{ = \sqrt{2T(1-\rho[\bf x, y])} = \sqrt{4T}d_\rho[\bf X,Y] }}$$
よって、測度$${d_{\rho}[\bf X, Y]}$$は、標準化された$${\bf X}$$と$${\bf Y}$$のユークリッド距離と線形で示されることから、距離測度である。証明終
これから、二つの確率変数に関して、距離の遠い近いをいうことができる。また、$${\rho[\bf x,y]\in[-1,1]}$$より、$${d[bf x,y]}$$は正規化され、同様に、$${d_{\rho}[\bf X, Y] \in[0,1]}$$である。
相関が正の確率変数より、負の確率変数の方が、相関の絶対値に関わらず、遠いとみなす。