統計的推量:ピアソン・ダイバージェンス

$${{\bf x} \in\{x_1,\cdots,x_k\},{\bf y}\in\{y_1,\cdots,y_l\},}$$の二つの離散方確率変数に対し、$${(x_i, y_j) \ i\in\{1,\cdots k\},j\in\{1,\cdots l\}]}$$の発生頻度を$${C_{x_i,y_j}}$$とし、$${c_{x_i}=\sum^{l}_{j=1}C_{x_i,y_j},\ c_{y_j}=\sum^{k}_{i=1}C_{x_i,y_j}}$$、また$${n=\sum^{k,l}_{i,j=1}C_{x_i,y_j}}$$とする。
このとき、$${(x_i, y_j)}$$の推定同時確率密度関数を、
$${\hat{f}(x_i, y_j)\displaystyle{=\frac{C_{x_i,y_j}}{n}}}$$
とする。
帰無仮説を「推定の${\hat{f}(x_i, y_j)}$$は、想定同時確率密度関数$${f(x_i, y_i)}$$に等しい」とする。
この検定には、二つの確率分布の差異を測定するピアソン・ダイバージェンスを用いる。
ピアソン・ダイバージェンスは、二つの確率分布$${p(x),q(x)}$$に関し、
$${D_p(p||q)=\displaystyle{\int\frac{(p(x)-q(x))^2}{q(x)}dx}}$$
と表す。距離速度ではないので、$${D_p(p||q)\neq D_p(q||p)}$$である。
$${D_{\hat f}(\hat f({\bf x},{\bf y})||f({\bf x},{\bf y}))=\displaystyle{\int \frac{(\hat f({\bf x},{\bf y})-f({\bf x},{\bf y}))^2}{\hat f({\bf x},{\bf y}) }d{\bf x}d{\bf y}}}$$より、
離散的確率変数の場合、
$${D_{\hat f}(\hat f({\bf x},{\bf y})||f({\bf x},{\bf y}))=\displaystyle{\sum^{k,l}_{i,j=1} \frac{(\frac{C_{x_i,y_j}}{n}-f(x_i,y_j))^2}{\frac{C_{x_i,y_j}}{n}} }}$$
で与えられ、これは自由度$${kl-1}$$の$${\Chi^2}$$分布に従うことから、$${\Chi^2}$$検定を行う。
$${{\bf x}, {\bf y}}$$がそれぞれ独立であることの検定には、$${\hat f({\bf x},{\bf y})}$$が周辺確率密度、
$${\hat g({\bf x})=\displaystyle{\frac{c_{{\bf x}}}{n}=\frac{1}{n}\sum^{l}_{j=1}C_{{\bf x},y_j}}}$$、$${\hat h({\bf y})=\displaystyle{\frac{c_{{\bf y}}}{n}=\frac{1}{n}\sum^{k}_{i=1}C_{x_i,{\bf y}}}}$$の積に等しいこと帰無仮説とし、$${\hat f({\bf x},{\bf y})}$$と$${\hat g({\bf x}\hat h({\bf x}}$$のピアソンダイバージェンスが自由度$${(k-1)(l-1)}$$の$${\Chi^2}$$分布に従うことから、$${\Chi^2}$$検定を行う。
自由度$${m}$$の$${\Chi^2}$$分布の累積分布関数$${\mathcal{F}_{\Chi^2}(D_{\hat f},m)}$$を用いて、p値を$${p=1-\mathcal{F}_{\Chi^2}(D_{\hat f},m)}$$で求め、有意水準$${\alpha}$$より小さければ、帰無仮説を棄却する。


いいなと思ったら応援しよう!