統計的推量：検定、ネイマンピアソンの補題

2024年10月21日 07:15

標本$${D}$$による推定量$${\hat\theta}$$は、標本データによって値が変わってくるため、推定値の信頼性の評価が必要である。
確率$${1-\alpha}$$で$${\hat\theta}$$が入る区間を信頼水準$${1-\alpha}$$の信頼区間と呼ぶ。

正規分布に従う標本の期待値推定の信頼区間

標本$${D=\{x_1, \cdots x_n\}}$$の$${x_i, i=1,\cdots n}$$が独立かつ正規分布$${\cal{N}(\mu, \sigma^2)}$$に従うとする。この期待値$${\mu}$$を推定値$${\hat\mu=\displaystyle{\frac{1}{n}\sum^{n}_{j=1} x_i}}$$により推定する。
この時、推定量$${\hat\mu}$$を標準化した
$${\displaystyle{z=\frac{\hat\mu-\mu}{\sqrt{\frac{\sigma^2}{n}}}}}$$
は、$${\cal{N}(0, 1)}$$に従う。
よって、この$${z}$$を用いて、$${\cal{N}(\mu, \sigma^2)}$$の確率密度関数$${g(z)}$$に関し、
$${\displaystyle{\int^{z_{\frac{\alpha}{2}}}_{-z_{\frac{\alpha}{2}}}g(z)dz =1-\alpha}}$$
なる$${z_{\frac{\alpha}{2}}}$$を求めれば、$${1-\alpha}$$の信頼区域$${[\hat\mu - \frac{\sigma}{\sqrt{n}}z_{\frac{\alpha}{2}}, \hat\mu + \frac{\sigma}{\sqrt{n}}z_{\frac{\alpha}{2}}]}$$が得られる。
ここで、$${\sigma}$$が未知の場合、推定値$${\displaystyle{\hat\sigma=\sqrt{\frac{1}{n}\sum^n_{j=1}(x_i-\hat\mu)^2}}}$$を用いれば、$${\displaystyle{t=\frac{\hat\mu - \mu}{\hat\sigma/\sqrt{n}}}}$$は自由度$${n-1}$$のt分布に従う。この表記をstudentizationと呼ぶ。信頼度$${1-\alpha}$$の信頼区域は、$${[\hat\mu - \frac{\sigma}{\sqrt{n}}t_{\frac{\alpha}{2}}, \hat\mu + \frac{\sigma}{\sqrt{n}}t_{\frac{\alpha}{2}}]}$$
で与えられる。

仮設検定

検証したい仮説を帰無仮説と呼び、これに対立する仮説を対立仮説と呼ぶ。

帰無仮説では、仮説が誤っているとして、その妥当性を標本を用いて検証する。帰無仮説のもとで、既知の標本が得られる確率を$${p}$$とし、これをp値と呼ぶ。有意水準$${\alpha}$$とp値を比較して、

$${p < \alpha}$$：帰無仮説棄却
$${p \geq \alpha}$$：帰無仮説採択

とする。

ネイマンピアソンの補題

正しい帰無仮説を棄却してしまうエラーをタイプ$${\rm I}$$エラー、または偽陽性と呼ぶ。与えられた有意水準$${\alpha}$$と確率密度関数$${g(z)}$$に関し、
$${\displaystyle{\int^{z_{\frac{\alpha}{2}}}_{-z_{\frac{\alpha}{2}}}g(z)dz =1-\alpha}}$$
なる$${z_{\frac{\alpha}{2}}}$$を棄却限界値と呼ぶ。故に、偽陽性が起こる確率は$${\alpha}$$である。
また、正しくない帰無仮説を採択してしまうエラーをタイプ$${\rm II}$$エラー、または偽陰性と呼ぶ。検定に失敗して対立仮説を見逃し、正しくない帰無仮説を採択してしまう確率を$${\beta}$$で表し、帰無仮説を正しく棄却する確率$${1-\beta}$$を検出力と呼ぶ。

推定量$${\theta}$$が$${\theta=\theta_0}$$である帰無仮説を$${H_0}$$、$${\theta=\theta_1}$$である対立仮説を$${H_1}$$と表し、確率密度を$${g(x;\theta_i), i=0,1}$$で与えられているとする。
任意の棄却集合$${R}$$を持つ仮説検定において、$${\alpha \in [0,1]}$$なる任意の$${\alpha}$$について以下の条件を満たすとき、その検定は条件$${P_\alpha}$$を満たすという。

$${\alpha=Pr_{\theta_0}(x\in R)}$$:確率$${\alpha}$$で誤って、$${H_0}$$を棄却する。$${\alpha}$$は偽陽性の確率である。
集合$${A}$$を$${H_0, H_1}$$がともに無視できる集合として、ある定数$${\eta\geq 0}$$を使い、$${x\in R \setminus A }$$($${x}$$は$${R}$$内で$${A}$$に含まれない)時、$${g(x|\theta_1) > \eta g(x|\theta_0)}$$であり、$${x\in R^c \setminus A }$$($${x}$$は$${R^c}$$内で$${A}$$に含まれない)時、$${g(x|\theta_1) < \eta g(x|\theta_0)}$$が成立する。これを尤度比条件と呼ぶ。

この$${P_\alpha}$$条件を満たす検定の棄却領域を$${R_{NP}}$$とし、偽陽性が最大で$${\alpha}$$のすべての検定の集合の棄却領域を$${R}$$とする。ここで、$${R_{NP}\neq R}$$である。
ある集合$${\Omega}$$に関して、
$${\phi(x|\Omega) = \left\{\begin{array}{ll}1 & (x \in \Omega)\\0 & (x \notin \Omega; 0)\end{array}\right.}$$
なる指示関数を用いると、
$${\Psi(x)=[\phi(x|R_{NP})-\phi(x|R)][g(x|\theta_1)-\eta g(x|\theta_0)]}$$
は、
$${x\in R_{NP}}$$の時、$${\Psi(x)=g(x|\theta_1)-\eta g(x|\theta_0)\geq 0}$$
$${x\in R}$$の時、$${\Psi(x)=-[g(x|\theta_1)-\eta g(x|\theta_0)\geq 0] \geq 0}$$
より、非負関数であることがわかる。
これを$${x}$$で積分すると、
$${0\leq=\int \Phi(x)dx=\int \phi(x|R_{NP})g(x|\theta_1) - \phi(x|R)g(x|\theta_1)-\eta\phi(x|R_{NP})g(x|\theta_0) + \eta\phi(x|R)g(x|\theta_0)dx}$$
棄却域にある$${x}$$を正しく$${\theta_1}$$として帰無仮説を正しく棄却する検出力を$${\mathrm{B}=1-\beta}$$とすると、
$${\int dx \phi(x|R_{NP})g(x|\theta_1)=\mathrm{B}_{R_{NP}}(\theta_1)}$$であるから、上記の積分は、
$${0\leq\mathrm{B}_{R_{NP}}(\theta_1)-\mathrm{B}_{R}(\theta_1)-\eta[\mathrm{B}_{R_{NP}}(\theta_0)-\mathrm{B}_{R}(\theta_0)]}$$
$${\mathrm{B}_{R_{NP}}(\theta_0)=\alpha}$$かつ、$${\mathrm{B}_R(\theta_0)\leq\alpha}$$より、
$${\mathrm{B}_{R_{NP}}(\theta_1)\geq \mathrm{B}_{R}(\theta_1)}$$
よって、$${R_{NP}}$$棄却検定は、サイズ$${\alpha}$$検定集合の中で、最強の検定であると言える。