統計的推量:ノンパラメトリック推定
パラメータ$${\theta}$$を伴ったパラメトリックモデル関数$${g({\bm x}|{\bm \theta})}$$を使わずに、確率密度関数を推定する。
カーネル密度推定法 Kernel Density Estimation
標本$${D=\{x_1, \cdots, x_n\}}$$が従う確率密度$${f({\bm x})}$$をカーネル関数$${K({\bm x},{\bm x}')}$$を用いて、
$${\hat f_{KDE}({\bm x})=\displaystyle{\frac{1}{n}\sum^{n}_{i=1}K({\bm x},{\bm x}_i)}}$$
と求める。
カーネル関数として、最も頻繁に使われているのがガウスカーネル、
$${K({\bm x},{\bm x}')=\displaystyle{\exp\left(-\frac{|{\bm x} - {\bm x}'|^2}{2\sigma^2}\right)}}$$
である。これは、$${\gamma=\frac{1}{2\sigma^2}}$$と簡単化して、$${K({\bm x},{\bm x}')=\exp(-\gamma |{\bm x} - {\bm x}'|^2)}$$とも示される。
カーネル関数は、二つのデータポイント$${({\bm x},{\bm x}')}$$間の類似度を示す関数と解釈される。
最近傍密度推定法 k-Nearest Neighbour Density Estimation
標本$${D=\{x_1, \cdots, x_n\}}$$の中で、$${{\bm x}}$$に$${k}$$番目に近い観測点に基づいて$${f({\bm x})}$$の推定を行う。
$${{\bm x}}$$と$${{\bm x}_i}$$の距離はユークリッド距離で、$${{\bm x}}$$番目に近い点との距離を
$${R_x^d=||{\bm x}_{(k)}-{\bm x}||}$$と定義する。$${d}$$は$${{\bm x}}$$の標本$${D}$$が存在する次元数である。
多変量一様カーネルを以下のように定義する。
$${K(||{\bm u}||)=\displaystyle{\frac{\Gamma(\frac{d+2}{2})}{\pi^{\frac{d}{2}}} 1(||{\bm u}||\leq 1)}}$$。
ここで、$${\displaystyle{\frac{\Gamma(\frac{d+2}{2})}{\pi^{\frac{d}{2}}}}}$$の逆数は、次元$${d}$$の単位球の体積であり、$${d=1}$$では$${2}$$、$${d=2}$$では$${\pi}$$、$${d=3}$$では$${\frac{4\pi}{3}}$$である。
$${R_x^d}$$をバンド幅とし、このカーネルを使うと、
$${f({\bm x})=\displaystyle{\frac{1}{nR_x^d} \sum^{n}_{i=1}\frac{\Gamma(\frac{d+2}{2})}{\pi^{\frac{d}{2}}} 1(||{\bm x}-{\bm x}_i||\leq R_x)}}$$
$${R_x}$$の定義から、$${||{\bm x}-{\bm x}_i||\leq R_x}$$なる点は$${k}$$個存在するから、
$${f({\bm x})=\displaystyle{\frac{k}{nR_x^d}\cdot \frac{\Gamma(\frac{d+2}{2})}{\pi^{\frac{d}{2}}} }}$$
よって、$${f(x)}$$は$${R_x}$$で与えられることになる。
$${R_x}$$が小さいときには、$${{\bm x}}$$の近傍に観測点が多く、故に$${f({\bm x})}$$は大きい。反対に$${R_x}$$が大きいときには、$${{\bm x}}$$の近傍に観測点が少なく、故に$${f({\bm x})}$$は小さくなる。
多変数一様カーネルの代わりに平滑カーネル関数が使われることもある。