統計検定準1級対策⑥:連続型分布と標本分布
はじめに
統計検定準1級対策第6段です. 今回は『統計学実践ワークブック』第6章 連続型分布と標本分布の範囲にある次の分野についてまとめます.
連続一様分布
正規分布
指数分布
ガンマ分布
ベータ分布
多変量正規分布
混合正規分布
カイ二乗分布
$${t}$$分布
$${F}$$分布
偏差値
1. 連続一様分布
定義
$${a < b}$$をみたす$${a, b}$$に対し, 確率密度関数
$$
f(x) = \begin{cases} \frac{1}{b-a} & (a \leq x \leq b) \\ 0 & (x < a, b < x) \end{cases}
$$
をもつ分布を連続一様分布といい, $${U(a, b)}$$で表す.
例
$${a = 2, b = 6}$$のとき
$$
f(x) = \begin{cases} \frac{1}{4} & (2 \leq x \leq 6) \\ 0 & (x < 2, b < 6) \end{cases}
$$
となる.
これは$${\int_{- \infty}^\infty f(x) dx = \int_{2}^{6} \frac{1}{4} dx = 1}$$より確率密度関数であることが分かる.
平均, 分散, モーメント母関数
$${X \sim U(a, b)}$$のとき, 平均, 分散, モーメント母関数は次で与えられる.
$$
\begin{align}
E(X) &= \frac{a + b}{2} \notag \\
V(X) &= \frac{(b - a)^2}{12} \notag \\
M(t) &= E(e^{tX}) = \frac{e^{bt} - e^{at}}{(b - a)t} \notag
\end{align}
$$
$${(proof)}$$
$${X, X^2}$$の期待値$${E(X), E(X^2)}$$はそれぞれ
$$
E(X) = \int_a^b x f(x) dx = \frac{1}{b - a} \left[\frac{1}{2} x^2 \right]_a^b = \frac{a + b}{2}
$$
$$
E(X^2) = \int_a^b x^2 f(x) dx = \frac{1}{b - a} \left[\frac{1}{3} x^3 \right]_a^b = \frac{a^2 + ab + b^2}{3}
$$
となる. よって, $${X}$$の分散$${V(X)}$$は次のように求められる.
$$
V(X) = E(X^2) - (E(X))^2 = \frac{a^2 + ab + b^2}{3} - \left(\frac{a + b}{2} \right)^2 = \frac{(b - a)^2}{12}
$$
モーメント母関数は
$$
\begin{align}
M(t) &= E(e^{tX}) \notag \\
&= \int_a^b e^{tx} f(x) dx \notag \\
&= \frac{1}{b - a} \int_a^b e^{tx} dx \notag \\
&= \frac{1}{b - a} \left[ \frac{1}{t} e^{tx}\right]_a^b \notag \\
&= \frac{e^{bt} - e^{at}}{(b - a)t} \notag
\end{align}
$$
となる. $${\square}$$
2. 正規分布
定義
実数$${\mu}$$と$${\sigma > 0}$$に対し, 確率密度関数
$$
f(x) = \frac{1}{\sqrt{2 \pi} \sigma} e^{- \frac{(x - \mu)^2}{2 \sigma^2}}
$$
をもつ分布を正規分布(ガウス分布)といい, $${N(\mu, \sigma^2)}$$で表す.
特に$${N(0, 1)}$$は標準正規分布とよばれる.
これは
$$
\int_{- \infty}^\infty f(x) dx = \int_{- \infty}^\infty \frac{1}{\sqrt{2 \pi} \sigma} e^{- \frac{(x - \mu)^2}{2 \sigma^2}} dx = 1
$$
をみたす.
$${(proof)}$$
$${t = \frac{x - \mu}{\sqrt{2} \sigma}}$$とおくと$${dx = \sqrt{2} dt}$$より
$$
\begin{align}
\int_{- \infty}^\infty \frac{1}{\sqrt{2 \pi} \sigma} e^{- \frac{(x - \mu)^2}{2 \sigma^2}} dx &= \frac{1}{\sqrt{\pi}} \int_{- \infty}^\infty e^{- t^2} dx \notag
\end{align}
$$
である.
$${\int_{- \infty}^\infty e^{- t^2} dx}$$はガウス積分であり, $${\int_{- \infty}^\infty e^{- t^2} dx = \sqrt{\pi}}$$であった(重積分を用いて証明できる).
したがって,
$$
\int_{- \infty}^\infty \frac{1}{\sqrt{2 \pi} \sigma} e^{- \frac{(x - \mu)^2}{2 \sigma^2}} dx = 1
$$
となる. $${\square}$$
例
$${\mu = 3, \sigma = 2}$$の正規分布は次のようなグラフになる.
平均, 分散, モーメント母関数
$${X \sim N(\mu, \sigma^2)}$$のとき, 平均, 分散, モーメント母関数は次のようになる.
$$
\begin{align}
E(X) &= \mu \notag \\
V(X) &= \sigma^2 \notag \\
M(t) &= E(e^{tX}) = \exp(\mu t + \frac{1}{2} \sigma^2 t^2) \ (- \infty < t < \infty) \notag
\end{align}
$$
$${(proof)}$$
モーメント母関数から示す.
$$
\begin{align}
M(t) &= \int_{- \infty}^\infty e^{tx} \frac{1}{\sqrt{2 \pi} \sigma} e^{- \frac{(x - \mu)^2}{2 \sigma^2}} dx \notag \\
&= \int_{- \infty}^\infty \frac{1}{\sqrt{2 \pi} \sigma} e^{{- \frac{(x - \mu)^2}{2 \sigma^2}} + tx} dx \notag \\
&= \int_{- \infty}^\infty \frac{1}{\sqrt{2 \pi} \sigma} e^{- \frac{x^2 - 2 \mu x + \mu^2 - 2 \sigma^2 tx}{2 \sigma^2}} dx \notag \\
&= \int_{- \infty}^\infty \frac{1}{\sqrt{2 \pi} \sigma} e^{- \frac{(x - (\mu + \sigma^2 t))^2 - 2 \mu \sigma^2 t - \sigma^4 t^2}{2 \sigma^2}} dx \notag \\
&= \int_{- \infty}^\infty \frac{1}{\sqrt{2 \pi} \sigma} e^{- \frac{(x - (\mu + \sigma^2 t))^2}{2 \sigma^2} + \mu t + \frac{1}{2} \sigma^2 t^2} dx \notag \\
&= e^{\mu t + \frac{1}{2} \sigma^2 t^2} \int_{- \infty}^\infty \frac{1}{\sqrt{2 \pi} \sigma} e^{- \frac{(x - (\mu + \sigma^2 t))^2}{2 \sigma^2}} dx \notag \\
&= e^{\mu t + \frac{1}{2} \sigma^2 t^2} \notag
\end{align}
$$
$${E(X) = M^{\prime}(0), E(X^2) = M^{\prime \prime}(0)}$$であった. よって,
$$
\begin{align}
M^{\prime}(t) &= (\mu + \sigma^2 t) e^{\mu t + \frac{1}{2} \sigma^2 t^2} \notag \\
M^{\prime \prime}(t) &= \sigma^2 e^{\mu t + \frac{1}{2} \sigma^2 t^2} + (\mu + \sigma^2 t)^2 e^{\mu t + \frac{1}{2} \sigma^2 t^2} \notag
\end{align}
$$
より
$$
\begin{align}
E(X) &= M^{\prime}(0) = \mu \notag \\
E(X^2) &= M^{\prime \prime}(0) = \mu^2 + \sigma^2 \notag \\
V(X) &= E(X^2) - (E(X))^2 = \sigma^2 \notag
\end{align}
$$
となる. $${\square}$$
再生性
正規分布には再生性がある. すなわち$${X_1 \sim N(\mu_1, {\sigma_1}^2), X_2 \sim N(\mu_2, {\sigma_2}^2)}$$が独立であるとき, $${X_1 + X_2 \sim N(\mu_1 + \mu_2, {\sigma_1}^2 + {\sigma_2}^2)}$$が成り立つ.
より一般に$${a X_1 + b X_2 \sim N(a \mu_1 + b \mu_2, a^2 {\sigma_1}^2 + b^2 {\sigma_2}^2)}$$が成り立つ.
$${(proof)}$$
$${a X_1 + b X_2}$$ のモーメント母関数は
$$
\begin{align}
E(e^{t(aX_1 + b X_2)}) &= E(e^{ta X_2}) E(e^{t b X_2}) \notag \\
&= e^{\mu_1 a t + \frac{1}{2} {\sigma_1}^2 (at)^2} e^{\mu_2 b t + \frac{1}{2} {\sigma_2}^2 (bt)^2} \notag \\
&= e^{a \mu_1 t + \frac{1}{2} a^2 {\sigma_1}^2 t^2} e^{b \mu_2 t + \frac{1}{2} b^2 {\sigma_2}^2 t^2} \notag \\
&= e^{(a \mu_1 + b \mu_2)t + \frac{1}{2} (a^2 {\sigma_1}^2 + b^2 {\sigma_2}^2) t^2} \notag
\end{align}
$$
よって, $${E(e^{t(aX_1 + b X_2)})}$$は$${N(a \mu_1 + b \mu_2, a^2 {\sigma_1}^2 + b^2 {\sigma_2}^2)}$$のモーメント母関数に一致する. $${\square}$$
3. 指数分布
定義
$${\lambda > 0}$$に対し, 確率密度関数
$$
f(x) = \lambda e^{- \lambda x} \ (x > 0)
$$
をもつ分布を指数分布といい, $${Exp(\lambda)}$$で表す.
これは
$$
\int_{- \infty}^\infty f(x) dx = \int_{0}^\infty \lambda e^{- \lambda x} dx = 1
$$
をみたす.
$${(proof)}$$
$$
\begin{aligned}
\int_{0}^\infty \lambda e^{- \lambda x} dx &= \lambda \left[ - \frac{1}{\lambda} e^{- \lambda x} \right]_0^\infty \\ &= \lambda \left(0 + \frac{1}{\lambda}\right) \\ &= 1
\end{aligned}
$$
$${\square}$$
$${X \sim Exp(\lambda)}$$の累積分布関数は
$$
F(x) = P(X \leq x) = 1 - e^{- \lambda x} \ (x > 0)
$$
となる.
$${(proof)}$$
$$
\begin{align}
F(x) &= P(X \leq x) \notag \\
&= \int_{- \infty}^x \lambda e^{- \lambda x} dx \notag \\
&= \left[ - e^{- \lambda x}\right]_{- \infty}^x \notag \\
&= 1 - e^{- \lambda x} \notag
\end{align}
$$
$${\square}$$
平均, 分散, モーメント母関数
$X \sim Exp(\lambda)$のとき, 平均, 分散, モーメント母関数は次のようになる.
$$
\begin{align}
E(X) &= \frac{1}{\lambda} \notag \\
V(X) &= \frac{1}{\lambda^2} \notag \\
M(t) &= E(e^{tX}) = \frac{\lambda}{\lambda - t} \ (t < \lambda) \notag
\end{align}
$$
$${(proof)}$$
モーメント母関数は
$$
\begin{align}
M(t) &= \int_0^\infty e^{tx} \lambda e^{- \lambda x} dx \notag \\
&= \lambda \int_0^\infty e^{(t - \lambda)x} dx \notag \\
&= \lambda \left[\frac{1}{t - \lambda} e^{(t - \lambda)x}\right]_0^\infty \notag
\end{align}
$$
モーメント母関数の定義より$${t}$$は$${0}$$に限りなく近い値なので
$$
\begin{align}
M(t) &= \lambda \times \frac{1}{t - \lambda} (0 - 1) = \frac{\lambda}{\lambda - t} \notag
\end{align}
$$
正規分布の場合と同様にモーメント母関数を微分すれば期待値, 分散が得られる. $${\square}$$
無記憶性
指数分布は無記憶性をもつ. すなわち$${X \sim Exp(\lambda)}$$のとき
$$
P(X \geq t_1 + t_2 | X \geq t_1) = P(X \geq t_2) \ (t_1, t_2 \geq 0)
$$
が成り立つ.
$${(proof)}$$
$${t \geq 0}$$対して
$$
P(X \geq t) = 1 - P(X \leq t) = 1 - F(t) = e^{- \lambda t}
$$
となる.
よって,
$$
P(X \geq t_1 + t_2 | X \geq t_1) = \frac{e^{- \lambda (t_1 + t_2)} }{e^{- \lambda t_1}} = e^{- \lambda t_2} = P(X \geq t_2)
$$
が成り立つ. $${\square}$$
3. ガンマ分布
定義
$${a > 0, b > 0}$$に対し, 確率密度関数
$$
f(x) = \frac{1}{\Gamma (a) b^a} x^{a - 1} e^{- \frac{x}{b}}, \ (x > 0)
$$
をもつ分布を形状母数$${a}$$, 尺度母数$${b}$$のガンマ分布といい, $${Ga(a, b)}$$で表す. ここで, $${\Gamma(a)}$$はガンマ関数
$$
\Gamma(a) = \int_0^\infty x^{a - 1} e^{- x} dx , \ (a > 0)
$$
を表す.
特に, $${a = 1}$$のときのガンマ分布$${Ga(1, b)}$$は$${\lambda = \frac{1}{b}}$$のときの指数分布$${Exp(\frac{1}{b})}$$に一致する.
$${(proof)}$$
$$
\Gamma(1) = \int_0^\infty e^{-x} dx = \left[ - e^{-x} \right]_0^\infty = 1
$$
よって,
$$
f(x) = \frac{1}{b} e^{- \frac{x}{b}}
$$
より示せた. $${\square}$$
ガンマ関数の性質
ガンマ関数について, 次が成り立つ.
$$
\begin{align}
\Gamma (1) &= 1 \notag \\
\Gamma (2) &= 1 \notag \\
\Gamma (3) &= 2 \notag \\
\Gamma (a + 1) &= a \Gamma (a) \ (a > 0)\notag \\
\Gamma (n) &= (n - 1)! \ (n \in \mathbb{N}) \notag
\end{align}
$$
$${(proof)}$$
ガンマ関数の階上に関する性質は別記事でまとめています.
平均, 分散, モーメント母関数
$${X \sim Ga(a, b)}$$のとき, 平均, 分散, モーメント母関数は次のようになる.
$$
\begin{align}
E(X) &= ab \notag \\
V(X) &= ab^2 \notag \\
M(t) &= E(e^{tX}) = (1 - bt)^{-a} \ (t < \frac{1}{b}) \notag
\end{align}
$$
$${(proof)}$$
$$
\begin{align}
M(t) &= E(e^{tX}) \notag \\
&= \int_0^\infty e^{tx} \frac{1}{\Gamma (a) b^a} x^{a - 1} e^{- \frac{x}{b}} dx \notag \\
&= \int_0^\infty \frac{1}{\Gamma (a) b^a} x^{a - 1} e^{- \frac{(1 - bt)x}{b}} dx \notag \\
&= \int_0^\infty \frac{1}{\Gamma (a) (1 - bt)^a (\frac{b}{1 - bt})^a} x^{a - 1} e^{- \frac{(1 - bt)x}{b}} dx \notag \\
&= (1 - bt)^{- a} \int_0^\infty \frac{1}{\Gamma (a) (\frac{b}{1 - bt})^a} x^{a - 1} e^{- \frac{(1 - bt)x}{b}} dx \notag \\
&= (1 - bt)^{-a} \notag
\end{align}
$$
最後の式変形は$${\frac{1}{\Gamma(a) \left(\frac{b}{1-bt}\right)^a} x^{a-1} e^{-\frac{(1-bt)x}{b}}}$$がガンマ分布の確率密度関数であるため,
$$
\int_0^\infty \frac{1}{\Gamma (a) (\frac{b}{1 - bt})^a} x^{a - 1} e^{- \frac{(1 - bt)x}{b}} dx = 1
$$
から成り立つ.
正規分布の場合と同様にモーメント母関数を微分すれば期待値, 分散が得られる. $${\square}$$
再生性
ガンマ分布には再生性がある. つまり, $${X_1 \sim Ga(a_1, b), X_2 \sim Ga(a_2, b)}$$が独立であるとき, $${X_1 + X_2 \sim Ga(a_1 + a_2, b)}$$が成り立つ.
$${(proof)}$$
$${X_1 + X_2}$$のモーメント母関数は
$$
\begin{align}
E(e^{t(X_1 + X_2)}) &= E(e^{t X_1}) E(e^{t X_2}) \notag \\
&= (1 - bt)^{- a_1} (1 - bt)^{- a_2} \notag \\
&= (1 - bt)^{- (a_1 + a_2)} \notag
\end{align}
$$
これは$${Ga(a_1 + a_2, b)}$$のモーメント母関数に一致する. $${\square}$$
4. ベータ分布
定義
$${a > 0, b > 0}$$に対し, 確率密度関数
$$
f(x) = \frac{1}{B(a, b)} x^{a - 1} (1 - x)^{b - 1}, \ (0 < x < 1) \notag
$$
をもつ区間$${(0, 1)}$$上のベータ分布といい, $${Be(a, b)}$$で表す. ここで, $${Be(a, b)}$$はベータ関数
$$
Be(a, b) = \int_0^1 x^{a - 1} (1 - x)^{b - 1} dx,\ (a > 0, b > 0)
$$
を表す.
ベータ関数
ベータ関数は本当は複素数上で定義される.
$${x, y \in \mathbb{C}}$$ s.t. $${\mathbf{Re}x > 0, \mathbf{Re} y > 0}$$において,
$$
Be(x, y) = \int_0^1 t^{x - 1} (1 - t)^{y - 1} dt
$$
と定義する.
ベータ関数の積分公式
$$
\int_0^1 x^a (1 - x)^{b} dx = \frac{a! b!}{(a + b + 1)!} \notag
$$
が成り立つ.
$${(proof)}$$
ベータ分布とガンマ分布には次のような関係式が成り立つ.
$$
Be(a, b) = \frac{\Gamma(a) \Gamma(b)}{\Gamma(a + b)}
$$
$${(proof)}$$
$$
\begin{align}
Be(a, b) &= \frac{(a - 1)! (b - 1)!}{(a + b - 1)!} \notag \\
\Gamma(a) &= (a - 1)! \notag
\end{align}
$$
より成り立つ.
平均, 分散
$${X \sim Be(a, b)}$$のとき, 平均, 分散は次のようになる.
$$
\begin{align}
E(X) &= \frac{a}{a + b} \notag \\
V(X) &= \frac{ab}{(a + b)^2 (a + b + 1)} \notag
\end{align}
$$
$${(proof)}$$
5. 多変量正規分布
定義
$${\mathbb{x} = (x_1, x_2, \cdots, x_k)^T}$$, $${\mathbb{x}}$$の平均ベクトルを$${\mathbb{\mu} = (\mu_1, \mu_2, \cdots, \mu_k)^T}$$, 分散共分散行列を$${\Sigma}$$とする$${k}$$変量正規分布を$${N(\mathbb{\mu}, \Sigma)}$$と表す. $${N(\mathbb{\mu}, \Sigma)}$$の確率密度関数は
$$
f(\mathbb{x}) = \frac{1}{\sqrt{2^k \pi^k |\Sigma|}} e^{- \frac{1}{2} (\mathbb{x} - \mathbb{\mu})^T \Sigma^{-1} (\mathbb{x} - \mathbb{\mu})}
$$
となる.
多変量標準正規分布から上の確率密度関数が導ける.
$${Z_i \sim N(0, 1), \ (i = 1, 2, \cdots k)}$$が互いに独立であるとし, $${\mathbf{Z} = (Z_1, Z_2, \cdots, Z_k)^T}$$とする.
このとき, $${Z}$$を多変量標準積分布と呼ぶ.
多変量標準正規分布の平均ベクトル, 分散共分散行列は次のようになる.
$$
E(\mathbf{Z}) = (E(Z_1), E(Z_2), \cdots, E(Z_k))^T = \mathbb{0}
$$
$$
\begin{align}
\Sigma &= \begin{pmatrix}
Cov(Z_1, Z_1) & Cov(Z_1, Z_2) & \cdots & Cov(Z_1, Z_k) \\
Cov(Z_2, Z_1) & Cov(Z_2, Z_2) & \cdots & Cov(Z_2, Z_k) \\
\vdots & \vdots & \ddots & \vdots \\\
Cov(Z_k, Z_1) & Cov(Z_k, Z_2) & \cdots & Cov(Z_k, Z_k) \\
\end{pmatrix} \notag \\
&= I_k \ (k \text{次元単位行列}) \notag
\end{align}
$$
$${\mathbf{X} = A \mathbf{Z} + \mathbb{b}}$$のように線形変換することで多変量正規分布を導く.
$${\mathbf{X} = (X_1, X_2, \cdots, X_k)^T, \mathbf{Z} = (Z_1, Z_2, \cdots, Z_k)^T}$$を確率ベクトルとする.
$$
\mathbf{X} = A \mathbf{Z} + \mathbb{b}
$$
をみたす正則行列$${A}$$, $${k}$$次元ベクトル$${\mathbb{b}}$$において,
$$
f_X (x) = \frac{1}{|det A|} f_Z (z)
$$
が成り立つ. ただし, $${f_{\mathbf{X}}, f_{\mathbf{Z}}}$$はそれぞれ$${\mathbf{X}, \mathbf{Z}}$$の確率密度関数である.
$${(proof)}$$
$$
\begin{align}
& \int \cdots \int_D f_X (x_1, \cdots, x_k) dx_1 \cdots dx_k \notag \\
= & \int \cdots \int_D f_X (x_1(z_1, \cdots, z_k), \cdots, x_k(z_1, \cdots, z_k)) \left|\frac{d(x_1, \cdots, dx_k)}{d(z_1, \cdots, dz_k)} \right| dz_1 \cdots dz_k \notag \\
= & \int \cdots \int_D f_X (x_1(z_1, \cdots, z_k), \cdots, x_k(z_1, \cdots, z_k)) |det A| dz_1 \cdots dz_k \notag \\
= & \int \cdots \int_D f_Z (z_1, \cdots, z_k) dz_1 \cdots dz_k \notag
\end{align}
$$
よって,
$$
f_X (x) = \frac{1}{|det A|} f_Z (z)
$$
が成り立つ.
$${\mathbf{X} = A \mathbf{Z} + \mathbb{b}}$$に関して
$$
f_{z_i} (z_i) = \frac{1}{\sqrt{2 \pi}} e^{- \frac{{z_i}^2}{2}}
$$
で$${Z_i}$$は互いに独立なので,
$$
f_Z (z) = \prod_{i=1}^n f_{Z_i} (z_i) = \frac{1}{\sqrt{(2 \pi)^n}} e^{- \frac{{z_1}^2 + {z_2}^2 + \cdots + {z_n}^2}{2}}
$$
$${f_X (x) = \frac{1}{|det A|} f_Z (z)}$$より
$$
f_X (x) = \frac{1}{|det A|} \frac{1}{\sqrt{(2 \pi)^n}} e^{- \frac{||z||^2}{2}} = \frac{1}{|det A|} \frac{1}{\sqrt{(2 \pi)^n}} e^{- \frac{||A^{-1} (\mathbb{x} - \mathbb{b})||^2}{2}}
$$
分散共分散行列$${\Sigma}$$は
$$
\begin{align}
\Sigma &= E((\mathbf{X} - \mathbb{\mu})^T (\mathbf{X} - \mathbb{\mu})) \notag \\
&= E((AZ + \mu) - E(AZ + \mu))^T ((AZ + \mu) - E(AZ + \mu)) \ (\because E(\mathbb{b}) = 0) \notag \\
&= E((A(Z - E(Z)))^T A(Z - E(Z))) \notag \\
&= E(A(Z - E(Z))(A(Z - E(Z)))^T) \notag \\
&= E(A (Z - E(Z)) (Z - E(Z))^T A^T) \notag \\
&= A E((Z - E(Z)) (Z - E(Z))^) A^T \notag
\end{align}
$$
$${E((Z - E(Z)) (Z - E(Z))^)}$$は多変量標準正規分布に従う$${Z}$$の分散共分散行列より$${k}$$次元単位行列$${I_k}$$となる. よって,
$$
\Sigma = A A^T
$$
$${det A = det A^T}$$ より
$$
|det A| = \sqrt{det \Sigma}
$$
となる.
また, $${(A^T)^{-1} = (A^{-1})^T}$$より
$$
\begin{align}
||A^{-1} (\mathbf{x} - \mathbf{\mu})||^2 &= (\mathbf{x} - \mathbf{\mu})^T (A^{-1})^T A^{-1} (\mathbf{x} - \mathbf{\mu}) \notag \\
&= (\mathbf{x} - \mathbf{\mu})^T (A A^T)^{-1} (\mathbf{x} - \mathbf{\mu}) \notag \\
&= (\mathbf{x} - \mathbf{\mu})^T \Sigma^{-1} (\mathbf{x} - \mathbf{\mu}) \notag
\end{align}
$$
となる. 以上より
$$
f(\mathbb{x}) = \frac{1}{\sqrt{2^k \pi^k |\Sigma|}} e^{- \frac{1}{2} (\mathbb{x} - \mathbb{\mu})^T \Sigma^{-1} (\mathbb{x} - \mathbb{\mu})}
$$
が導出できた.
$${1}$$変数の場合と比較して分散$${\sigma^2}$$の部分が分散共分散行列に代わり, $${- \frac{(x - \mu)^2}{2 \sigma^2}}$$の部分が$${- \frac{1}{2} ||A^{-1} (\mathbf{x} - \mathbf{\mu})||^2 = - \frac{1}{2} (\mathbf{x} - \mathbf{\mu})^T \Sigma^{-1} (\mathbf{x} - \mathbf{\mu})}$$になったと考えられる. もともとu標準偏差だった部分が分散共分散行列に置き換わっただけとみることができる.
2変量の場合
$${2}$$変量$${\mathbf{X} = (X_1, X_2)^T}$$の場合には, 確率密度関数は次のようになる.
$$
f(\mathbb{x}) = \frac{1}{2 \pi \sqrt{|\Sigma|}} \exp(- \frac{1}{2} (x_1 - \mu_1, x_2 - \mu_2) \Sigma^{-1} \begin{pmatrix}
x_1 - \mu_1 \ x_2 - \mu_2
\end{pmatrix})
$$
いま, $${X_i \sim N(\mu_1, {\sigma_i}^2)}$$とし, $${\rho}$$を$${X_1, X_2}$$の相関係数とすると
$$
\begin{align}
\Sigma &= \begin{pmatrix}
{\sigma_1}^2 & \sigma_1 \sigma_2 \rho \\
\sigma_1 \sigma_2 \rho & {\sigma_2}^2 \\
\end{pmatrix} \notag \\
\Sigma^{-1} &= \frac{1}{det \Sigma} \begin{pmatrix}
{\sigma_2}^2 & - \sigma_1 \sigma_2 \rho \\
- \sigma_1 \sigma_2 \rho & {\sigma_1}^2 \\
\end{pmatrix} \notag \\
&= \frac{1}{{\sigma_1}^2 {\sigma_2}^2 (1 - \rho^2)} \begin{pmatrix}
{\sigma_2}^2 & - \sigma_1 \sigma_2 \rho \\
- \sigma_1 \sigma_2 \rho & {\sigma_1}^2 \\
\end{pmatrix} \notag
\end{align}
$$
となる. よって,
$$
f(\mathbb{x}) = \frac{1}{2 \pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \exp \left(- \frac{1}{2(1 - \rho^2)} \left( (\frac{x_1 - \mu_1}{\sigma_1})^2 - 2 \rho (\frac{x_1 - \mu_1}{\sigma_1}) (\frac{x_2 - \mu_2}{\sigma_2}) + (\frac{x_2 - \mu_2}{\sigma_2})^2 \right)^2 \right)
$$
が得られる. ここで$${\mathbb{x} = (x_1, x_2)^T}$$であることに注意したい.
$$
\begin{pmatrix}
X_1 \ X_2
\end{pmatrix} \sim
N \left(
\begin{pmatrix}
\mu_1 \ \mu_2
\end{pmatrix},
\begin{pmatrix}
{\sigma_1}^2 & \sigma_1 \sigma_2 \rho \\
\sigma_1 \sigma_2 \rho & {\sigma_2}^2 \\
\end{pmatrix}
\right)
$$
のとき,
$$
a X_1 + b X_2 \sim N(a \mu_1 + b \mu_2, a^2 {\sigma_1}^2 + 2ab \rho \sigma_1 \sigma_2 b^2 {\sigma_2}^2)
$$
が成り立つ.
また, $${X_1 = x_1}$$が与えられたときの$${X_2}$$の条件付き分布は次の期待値, 分散をもつ正規分布になる.
$$
\begin{align}
E(X_2 | X_1 = x_1) &= \mu_2 + \frac{\rho \sigma_1 \sigma_2}{{\sigma_1}^2} (x_1 - \mu_1) \notag \\
V(X_2 | X_1 = x_1) &= {\sigma_2}^2 (1 - \rho^2) \notag
\end{align}
$$
$${(proof)}$$
$${X_1 = x_1}$$が与えられたときの$${X_2}$$の条件付き確率密度関数は
$$
\begin{align}
f(X_2 | X_1 = x_1) &= \frac{f(\mathbb{x})}{f(x_1)} \notag \\
&= \frac{\frac{1}{2 \pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \exp \left(- \frac{1}{2(1 - \rho^2)} \left( (\frac{x_1 - \mu_1}{\sigma_1})^2 - 2 \rho (\frac{x_1 - \mu_1}{\sigma_1}) (\frac{x_2 - \mu_2}{\sigma_2}) + (\frac{x_2 - \mu_2}{\sigma_2})^2 \right)^2 \right)}{\frac{1}{\sqrt{2 \pi} \sigma_1} \exp (- \frac{(x_i - \mu_1)^2}{2 {\sigma_1}^2})} \notag
\end{align}
$$
である. これを計算すると
$$
f(X_2 | X_1 = x_1) = \frac{1}{\sqrt{2 \pi} \sigma_2 \sqrt{1 - \rho^2}} \exp (- \frac{(x_2 - (\mu_2 + \frac{\rho \sigma_1 \sigma_2}{{\sigma_1}^2} (x_1 - \mu_1)))^2}{2 (1 - \rho^2) {\sigma_2}^2})
$$
となる.
これから前述の条件付き期待値, 条件付き分散をもつ正規分布に従うことが示された. $${\square}$$
補足:回帰分析による条件付き期待値の証明
$${x_1, x_2}$$の単回帰分析を考えると
$$
\hat{x_2} = \alpha + \beta x_1
$$
ただし,
$$
\begin{align}
\alpha &= \mu_2 - \beta \mu_1 \notag\\
\beta &= \frac{Cov(x_1, x_2)}{{\sigma_1}^2} = \frac{\rho \sigma_1 \sigma_2}{{\sigma_1}^2} \notag
\end{align}
$$
であった.
これを用いると
$$
\begin{align}
E(X_2 | X_1 = x_1) &= \alpha + \beta x_1 \notag \\
&= (\mu_2 - \frac{\rho \sigma_1 \sigma_2}{{\sigma_1}^2} \mu_1) + \frac{\rho \sigma_1 \sigma_2}{{\sigma_1}^2} x_1 \notag \\
&= \mu_2 + \frac{\rho \sigma_1 \sigma_2}{{\sigma_1}^2} (x_1 - \mu_1) \notag
\end{align}
$$
が得られる.
6. 混合正規分布
正規分布$${N(\mu_j, {\sigma_j}^2)}$$の確率密度関数を$${f_j (x)}$$とする. このとき,
$$
f(x) = p_1 f_1(x) + p_2 f_2(x) + \cdots + p_K f_K (x) \\
p_1 + p_2 + \cdots + p_K = 1
$$
を確率密度関数にもつ分布を$${1}$$変量の混合正規分布という. このとき, 各$${N(\mu_j, {\sigma_j}^2)}$$を混合要素といい, $${p_1, p_2, \cdots, p_K}$$を混合比率あるいは混合係数という.
$${2}$$成分の混合正規分布の場合,
$$
f(x) = p f_1(x) + (1 - p) f_2(x)
$$
で表される. $${p, f_1, f_2}$$が未知のとき, パラメータ$${\mathbb{\theta} = (\mu_1, {\sigma_1}^2, \mu_2, {\sigma_2}^2, p)}$$はEMアルゴリズム(29章)を用いて推定できる.
7. カイ二乗分布
通常のカイ二乗分布
$${Z_i \sim N(0, 1), i = 1, 2, \cdots, n}$$でこれらが互いに独立なとき
$$
Y = Z_1^2 + \cdots + Z_n^2
$$
が従う分布を自由度$${n}$$のカイ二乗分布といい, $${\chi^2 (n)}$$で表す.
$${Y \sim \chi^2 (n)}$$の確率密度関数は
$$
f(y) = \frac{1}{\Gamma (\frac{n}{2}) 2^\frac{n}{2}} y^{\frac{n}{2} - 1} e^{- \frac{y}{2}}, y > 0
$$
であり, $${\chi^2 (n)}$$とガンマ分布$${Ga(\frac{n}{2}, 2)}$$は一致する.
$${(proof)}$$
方針だけ書いておく.
$${\chi^2 (1)}$$の確率密度関数は標準正規分布に従う確率変数の二乗である$${Z_1^2}$$の確率密度関数$${f_{Z_1^2} (x)}$$であり,
$$
f_{Z_1^2} (x) = \frac{1}{\sqrt{2 \pi x}} e^{- \frac{x}{2}}
$$
が分かる.
ここで数学的帰納法を用い, $${Y_{k} = Z_1^2 + \cdots + Z_k^2}$$とすると
$$
Y_{k + 1} = Y_k + Z_{k + 1}^2
$$
から$${Y_k}$$の確率密度関数を
$$
f_{Y_k} (y) = \frac{1}{\Gamma (\frac{n}{2}) 2^\frac{n}{2}} y^{\frac{n}{2} - 1} e^{-\frac{y}{2}}, y > 0
$$
とし, $${Y_{k + 1}}$$の確率密度関数を求め, 証明する. その際, ベータ関数とガンマ関数の関係式
$$
B(\alpha, \beta) = \frac{\Gamma (\alpha) \Gamma (\beta)}{\Gamma (\alpha + \beta)}
$$
と$${\Gamma (\frac{1}{2}) = \sqrt{\pi}}$$を用いる. $${\square}$$
再生性
カイ二乗分布は再生性をもつ. すなわち, $${X \sim \chi^2 (m), Y \sim \chi^2 (n)}$$で$${X}$$と$${Y}$$が独立のとき, $${X + Y \sim \chi^2 (m + n)}$$が成り立つ.
$${(proof)}$$
ガンマ分布の再生性を用いる.
$${X_1 \sim Ga(a_1, b), X_2 \sim Ga(a_2, b)}$$が独立であるとき, $${X_1 + X_2 \sim Ga(a_1 + a_2, b)}$$が成り立った.
よって,$${X \sim \chi^2 (m), Y \sim \chi^2 (n)}$$より
$$
X \sim Ga(\frac{m}{2}, 2), Y \sim Ga(\frac{n}{2}, 2)
$$
から
$$
X + Y \sim Ga(\frac{m + n}{2}, 2)
$$
より$${X + Y \sim \chi^2 (m + n)}$$が成り立つ. $${\square}$$
期待値, 分散, モーメント母関数
カイ二乗分布の期待値, 分散, モーメント母関数は次のようになる.
$$
\begin{align}
E(X) &= n \notag \\
V(X) &= 2n \notag \\
M(t) &= E(e^{tX}) = (1 - 2t)^{- \frac{n}{2}} \ (t < \frac{1}{2}) \notag
\end{align}
$$
$${(proof)}$$
$${X \sim Ga(a, b)}$$のとき
$$
\begin{align}
E(X) &= ab \notag \\
V(X) &= ab^2 \notag \\
M(t) &= E(e^{tX}) = (1 - bt)^{-a} \ (t < \frac{1}{b}) \notag
\end{align}
$$
であった. $${a = \frac{n}{2}, b = 2}$$とすればよい. $${\square}$$
カイ二乗分布は正規分布からの標本に基づく標本分散の標本分布を考える際に現れる.
例
$${X_1, X_2, \cdots, X_n}$$を$${N(\mu, \sigma^2)}$$からの無作為標本とし,
$$
\begin{align}
\overline{X} &= \frac{1}{n} \sum_{i = 1}^n X_i : \text{標本平均} \notag \\
s^2 &= \frac{1}{n - 1} \sum_{i = 1}^n (X_i - \overline{X}) : \text{不偏分散} \notag
\end{align}
$$
とする. このとき,
$${\overline{X}}$$と$${s^2}$$は独立
$${\frac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0, 1)}$$
$${\frac{(n - 1) s^2}{\sigma^2} = \frac{\sum_{i = 1}^n (X_i - \overline{X})}{\sigma^2} \sim \chi^2 (n - 1)}$$
となる.
補足:カイ二乗分布の性質
カイ二乗分布は上記のような性質をもつ. これは母集団か標本かの違いによるものである.
母分散の場合は$${\chi^2 (n)}$$に対し, 標本分散の場合は$${\chi^2 (n - 1)}$$になるのは, 分散分析のところでやる全平方和, 水準間平方和, 残差平方和が関わってくる.
今回の場合, 直感的な理解をするのであれば, 母分散の分, 自由度が$${1}$$減っていると考えれば良いと思われる.
非心カイ二乗分布
$${Z_i \sim N(0, 1)}$$が互いに独立であり, $${\lambda = \mu_1^2 + \cdots + \mu_n^2 > 0}$$であるとき
$$
\sum_{i = 1}^n (Z_i + \mu_i)^2
$$
は自由度$${n}$$, 非心度$${\lambda}$$の非心カイ二乗分布に従うといい, $${\chi^2 (n, \lambda)}$$と表す.
$${\chi^2 (n, 0)}$$は$${\chi^2 (n)}$$と一致する.
$${(proof)}$$
これは$${Z_i}$$が互いに独立がうまく作用しているはず.
非心カイ二乗分布は再生性をもち, これは通常のカイ二乗分布の再生性を一般化したものである.
$$
X_i \sim \chi^2 (n_i, \lambda_i)
$$
で互いに独立であるとき,
$$
\sum_{i = 1}^n X_i \sim \chi^2 (\sum_{i = 1}^n n_i, \sum_{i = 1}^n \lambda_i)
$$
となる.
$${(proof)}$$
$${X_1 + X_2 \sim \chi^2 (n_1 + n_2, \lambda_1 + \lambda_2)}$$を示せば十分である. これはモーメント母関数から示せる. $${\square}$$
7. t分布
$${Z \sim N(0, 1), Y \sim \chi^2 (n)}$$でこれらが互いに独立であるとき,
$$
T = \frac{Z}{\sqrt{\frac{Y}{n}}}
$$
が従う分布を自由度$${n}$$の$${t}$$分布といい, $${t(n)}$$で表す.
$${T \sim t(n)}$$のとき, $${T}$$の確率密度関数$${f(x)}$$は
$$
f(t) = \frac{\Gamma(\frac{n + 1}{2})}{\sqrt{\pi n} \Gamma (\frac{n}{2})} (1 + \frac{t^2}{n})^{- \frac{n + 1}{2}} \ (- \infty < t < \infty)
$$
で与えられる.
$${(proof)}$$
条件より$${Z \sim N(0, 1), Y \sim \chi^2 (n)}$$であった. このとき, $${(Z, Y)}$$の同時確率密度関数は
$$
\begin{align}
f_{Z, Y}(z, y) &= \frac{1}{\sqrt{2 \pi}} e^{-\frac{z^2}{2}} \cdot \frac{1}{\Gamma(\frac{n}{2}) 2^{\frac{n}{2}}} y^{\frac{n}{2} - 1} e^{-\frac{y}{2}}, \quad y > 0 \notag
\end{align}
$$
である. $${t = \frac{z}{\sqrt{\frac{y}{n}}}, w = y}$$において変数変換を行う. $${z = \sqrt{\frac{y}{n}} t, y = w}$$よりヤコビアンは
$$
\begin{align}
J(z, w) &= \begin{vmatrix}
\frac{\partial z}{\partial t} & \frac{\partial z}{\partial w} \\
\frac{\partial y}{\partial t} & \frac{\partial y}{\partial w} \\
\end{vmatrix} \notag \\
&= \begin{vmatrix}
\sqrt{\frac{y}{n}} & \frac{t}{2 \sqrt{n}} \\
0 & 1 \\
\end{vmatrix} \notag \\
&= \sqrt{\frac{w}{n}} \notag
\end{align}
$$
となる. したがって,
$$
\begin{align}
f_{T, W} (t, w) &= \frac{1}{\sqrt{2 \pi}} e^{-\frac{t^2 w}{2n}} \cdot \frac{1}{\Gamma(\frac{n}{2}) 2^{\frac{n}{2}}} w^{\frac{n}{2} - 1} e^{-\frac{w}{2}} \cdot \sqrt{\frac{w}{n}} \notag \\
&= \frac{1}{\sqrt{\pi n}} \cdot \frac{1}{\Gamma (\frac{n}{2})} \cdot \frac{1}{2^{\frac{n + 1}{2}}} \cdot e^{- \frac{\frac{t^2}{n} + 1}{2} w} \cdot w^{\frac{n + 1}{2} - 1} \notag
\end{align}
$$
$${T}$$の確率密度関数を求めるために$${T}$$の周辺確率密度関数を求める.
$${W = Y \sim \chi^2 (n)}$$より積分範囲は$${(0, \infty)}$$である.
$$
\begin{align}
f_T (t) &= \int_0^\infty f_{T, W} (t, w) dw \notag \\
&= \frac{1}{\sqrt{\pi n}} \cdot \frac{1}{\sqrt{\Gamma (\frac{n}{2})}} \cdot \frac{1}{2^{\frac{n + 1}{2}}} \cdot \int_0^\infty e^{- \frac{\frac{t^2}{n} + 1}{2} w} \cdot w^{\frac{n + 1}{2} - 1} dw \notag
\end{align}
$$
$${s = \frac{\frac{t^2}{n} + 1}{2} w}$$とおくと$${ds = \frac{\frac{t^2}{n} + 1}{2} dw}$$である. よって,
$$
\begin{align}
\int_0^\infty e^{- \frac{\frac{t^2}{n} + 1}{2} w} \cdot w^{\frac{n + 1}{2} - 1} dw &= \int_0^\infty e^{- s} \cdot \left(\frac{2}{\frac{t^2}{n} + 1} s \right)^{\frac{n + 1}{2} - 1} \cdot \frac{2}{\frac{t^2}{n} + 1} ds \notag \\
&= 2^{\frac{n + 1}{2}} \left(\frac{1}{\frac{t^2}{n} + 1} \right)^{\frac{n + 1}{2}} \int_0^\infty s^{\frac{n + 1}{2} - 1} e^{- s} ds \notag \\
&= 2^{\frac{n + 1}{2}} \left(\frac{1}{\frac{t^2}{n} + 1} \right)^{\frac{n + 1}{2}} \Gamma (\frac{n + 1}{2}) \notag
\end{align}
$$
となり
$$
\begin{align}
f_T (t) &=\frac{1}{\sqrt{\pi n}} \cdot \frac{1}{\Gamma (\frac{n}{2})} \cdot \frac{1}{2^{\frac{n + 1}{2}}} \cdot 2^{\frac{n + 1}{2}} \left(\frac{1}{\frac{t^2}{n} + 1} \right)^{\frac{n + 1}{2}} \Gamma (\frac{n + 1}{2}) \notag \\
&= \frac{\Gamma(\frac{n + 1}{2})}{\sqrt{\pi n} \Gamma (\frac{n}{2})} (1 + \frac{t^2}{n})^{- \frac{n + 1}{2}} \notag
\end{align}
$$
となる. $${\square}$$
期待値, 分散
$${X \sim t(n)}$$の期待値, 分散は次のようになる.
$$
\begin{align}
E(X) &= 0 \ (n > 1) \notag \\
V(X) &= \frac{n}{n - 2} \ (n > 2) \notag
\end{align}
$$
ただし, $${n = 1}$$のとき, $${E(X)}$$は存在せず, $${n = 1, 2}$$のとき$${V(X)}$$は存在しない.
$${(proof)}$$
$$
\begin{align}
E(T) &= \int_{- \infty}^\infty t f(t) dt \notag \\
&= \int_{- \infty}^\infty t \frac{\Gamma(\frac{n + 1}{2})}{\sqrt{\pi n} \Gamma (\frac{n}{2})} (1 + \frac{t^2}{n})^{- \frac{n + 1}{2}} dt \notag \\
&= \frac{\Gamma(\frac{n + 1}{2})}{\sqrt{\pi n} \Gamma (\frac{n}{2})} \int_{- \infty}^\infty t (1 + \frac{t^2}{n})^{- \frac{n + 1}{2}} dt \notag
\end{align}
$$
$${n > 1}$$のとき, $${t (1 + \frac{t^2}{n})^{- \frac{n + 1}{2}}}$$は奇関数より$${E(T) = 0}$$である.
$${n = 1}$$のとき
$$
\begin{align}
E(T) &= \frac{\Gamma(1)}{\sqrt{\pi} \Gamma (\frac{1}{2})} \int_{- \infty}^\infty t (1 + t^2)^{-1} dt \notag \\
&= \frac{1}{\sqrt{\pi} \sqrt{\pi}} \int_{- \infty}^\infty \frac{t}{1 + t^2} dt \notag \\
&= \frac{1}{2 \pi} \int_{- \infty}^\infty \frac{(1 + t^2)^\prime}{1 + t^2} dt \notag \\
&= \frac{1}{2 \pi} \left[ \log (1 + t^2) \right]_{- \infty}^\infty \notag
\end{align}
$$
となる. これは不定形となり, $${n = 1}$$のとき$${E(X)}$$は存在しない.
また,
$$
\begin{align}
E(T^2) &= \int_{- \infty}^\infty t^2 f(t) dt \notag \\
&= \frac{\Gamma(\frac{n + 1}{2})}{\sqrt{\pi n} \Gamma (\frac{n}{2})} \int_{- \infty}^\infty t^2 (1 + \frac{t^2}{n})^{- \frac{n + 1}{2}} dt \notag
\end{align}
$$
$${t^2 (1 + \frac{t^2}{n})^{- \frac{n + 1}{2}}}$$は偶関数より
$$
\begin{align}
E(T^2) &= \frac{2 \Gamma(\frac{n + 1}{2})}{\sqrt{\pi n} \Gamma (\frac{n}{2})} \int_{0}^\infty t^2 (1 + \frac{t^2}{n})^{- \frac{n + 1}{2}} dt \notag
\end{align}
$$
$${\frac{1}{s} = 1 + \frac{t^2}{n}}$$とすると$${t^2 = n (\frac{1}{s} - 1)}$$である. 積分範囲より$${t \geq 0}$$なので$${t = \sqrt{n} (\frac{1}{s} - 1)^{\frac{1}{2}}}$$となる. $${dt = - \frac{1}{2} n^{\frac{1}{2}} s^{-2} (\frac{1}{s} - 1)^{- \frac{1}{2}} ds}$$であり, $${t:0 \rightarrow \infty}$$より$${s:1 \rightarrow 0}$$となる.
$$
\begin{align}
E(T^2) &= \frac{2 \Gamma(\frac{n + 1}{2})}{\sqrt{\pi n} \Gamma (\frac{n}{2})} \int_{1}^0 n \left(\frac{1}{s} - 1 \right) s^{\frac{n + 1}{2}} \left(- \frac{\sqrt{n}}{2} \right) s^{-2} \left(\frac{1}{s} - 1 \right)^{- \frac{1}{2}} ds \notag \\
&= \frac{n \sqrt{n} \Gamma(\frac{n + 1}{2})}{\sqrt{\pi n} \Gamma (\frac{n}{2})} \int_{0}^1 s^{(\frac{n}{2} - 1) - 1} (1 - s)^{\frac{1}{2}} ds \notag
\end{align}
$$
$${\sqrt{\pi} = \Gamma(\frac{1}{2})}$$より
$$
\begin{align}
E(T^2) &= n \frac{\Gamma(\frac{n + 1}{2})}{\Gamma(\frac{1}{2})\Gamma(\frac{n}{2})} B(\frac{n}{2} - 1, \frac{3}{2}) \notag \\
&= n \frac{\Gamma(\frac{n + 1}{2})}{\Gamma(\frac{1}{2})\Gamma(\frac{n}{2})} \frac{\Gamma(\frac{n}{2} - 1) \Gamma(\frac{3}{2})}{\Gamma(\frac{n}{2} - 1 + \frac{3}{2})} \notag \\
&= n \frac{\Gamma(\frac{n}{2} - 1) \Gamma(\frac{3}{2})}{\Gamma(\frac{1}{2})\Gamma(\frac{n}{2})} \notag
\end{align}
$$
$${\Gamma(\frac{n}{2}) = (\frac{n}{2} - 1) \Gamma(\frac{n}{2} - 1), \Gamma(\frac{3}{2}) = \frac{1}{2} \Gamma (\frac{1}{2})}$$より
$$
E(T^2) = n \frac{\frac{1}{2}}{\frac{n}{2} - 1} = \frac{n}{n - 2}
$$
となる. よって, $${n > 2}$$のとき
$$
V(T) = E(T^2) - \{E(T)\}^2 = \frac{n}{n - 2}
$$
となる. $${\square}$$
非心t分布
非心$${t}$$分布について定義する.
$${Z \sim N(\lambda, 1), Y \sim \chi^2 (n)}$$でこれらが互いに独立であるとき,
$$
T = \frac{Z}{\sqrt{\frac{Y}{n}}}
$$
が従う分布を自由度$${n}$$, 非心度$${\lambda}$$の非心$${t}$$分布といい, $${t(n, \lambda)}$$で表す.
$${t(n, 0)}$$は$${t(n)}$$と一致する.
分散が未知の正規分布の平均の検定の際に$${t}$$分布が現れる.
t統計量
$${N(\mu, \sigma^2)}$$からの無作為標本$${X_1, \cdots, X_n}$$に対し, 不偏分散$${s^2 = \frac{1}{n - 1} \sum_{i = 1}^n (X_i - \overline{X})^2}$$を用いて
$$
t = \frac{\overline{X}}{\frac{s}{\sqrt{n}}} = \frac{\frac{\overline{X}}{\frac{\sigma}{\sqrt{n}}}}{\sqrt{\frac{\frac{(n - 1) s^2}{\sigma^2}}{{n - 1}}}}
$$
と$${t}$$統計量を定義する. $${t}$$統計量は
$${\mu = 0}$$のとき, 自由度$${n - 1}$$の$${t}$$分布に従う.
$${\mu \neq 0}$$のとき, 自由度$${n - 1}$$, 非心度$${\frac{\mu}{\frac{\sigma}{\sqrt{n}}}}$$の$${t}$$分布に従う.
これは,
$${\frac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0, 1)}$$
$${\frac{(n - 1) s^2}{\sigma^2} = \frac{\sum_{i = 1}^n (X_i - \overline{X})}{\sigma^2} \sim \chi^2 (n - 1)}$$
よりわかる.
補足
$$
\frac{\Gamma(\frac{n + 1}{2})}{\sqrt{\pi} \Gamma(\frac{1}{2})} = \frac{1}{B(\frac{n}{2}, \frac{1}{2})}
$$
より
$$
f_T (t) = \frac{1}{\sqrt{n} B(\frac{n}{2}, \frac{1}{2})} (1 + \frac{t^2}{n})^{- \frac{n + 1}{2}}
$$
と表せる.
$${(proof)}$$
$${\Gamma(\frac{1}{2}) = \sqrt{\pi}, B(a, b) = \frac{\Gamma(a) \Gamma(b)}{\Gamma(a + b)}}$$より成り立つ. $${\square}$$
$${t(1)}$$の場合はコーシー分布に一致し, $${n \rightarrow \infty}$$とすると標準正規分布に分布収束する.
8. F分布
定義
$${Y_1 \sim \chi^2 (n_1), Y_2 \sim \chi^2 (n_2)}$$でこれらが互いに独立なとき
$$
X = \frac{\frac{Y_1}{n_1}}{\frac{Y_2}{n_2}}
$$
が従う分布を自由度$${(n_1, n_2)}$$の$${F}$$分布といい, $${F(n_1, n_2)}$$で表す.
$${F(n_1, n_2)}$$の確率密度関数$${f(x)}$$は
$$
\begin{align}
f(x) &= \frac{{n_1}^{\frac{n_1}{2}} {n_2}^{\frac{n_2}{2}}}{B(\frac{n_1}{2}, \frac{n_2}{2})} \cdot \frac{x^{\frac{n_1}{2} - 1}}{(n_2 + n_1 x)^{\frac{n_1 + n_2}{2}}} \notag \\
&= \frac{1}{B(\frac{n_1}{2}, \frac{n_2}{2})} \cdot \frac{(\frac{n_1}{n_2})^{\frac{n_1}{2}} x^{\frac{n_1}{2} - 1}}{(1 + \frac{n_1}{n_2} x)^{\frac{n_1 + n_2}{2}}} \ (x > 0) \notag
\end{align}
$$
となる.
$${(proof)}$$
$${Y_1 \sim \chi^2 (n_1), Y_2 \sim \chi^2 (n_2)}$$であり, $${Y_1}$$と$${Y_2}$$が互いに独立である. $${X = \frac{\frac{Y_1}{n_1}}{\frac{Y_2}{n_2}}}$$の確率密度関数を考える.
$${(Y_1, Y_2)}$$の同時確率密度関数$${f(y_1, y_2)}$$は$${Y_1, Y_2}$$は独立より
$$
\begin{align}
f(y_1, y_2) &= \frac{1}{\Gamma (\frac{n_1}{2}) 2^\frac{n_1}{2}} {y_1}^{\frac{n_1}{2} - 1} e^{- \frac{y_1}{2}} \cdot \frac{1}{\Gamma (\frac{n_2}{2}) 2^\frac{n_2}{2}} {y_2}^{\frac{n_2}{2} - 1} e^{- \frac{y_2}{2}} \notag \\
&= \frac{1}{\Gamma(\frac{n_1}{2}) \Gamma (\frac{n_2}{2}) 2^{\frac{n_1 + n_2}{2}}} {y_1}^{\frac{n_1}{2} - 1} {y_2}^{\frac{n_2}{2} - 1} e^{- \frac{y_1 + y_2}{2}} \notag
\end{align}
$$
$${(y_1, y_2)}$$を$${Z = \frac{\frac{Y_1}{n_1}}{\frac{Y_2}{n_2}}, W = Y_2}$$で変数変換すると
$$
y_1 = \frac{w}{n_2} n_1 z = \frac{n_1}{n_2} zw \\
y_2 = w
$$
より
$$
J(z, w) = \begin{vmatrix}
\frac{n_1}{n_2} w & \frac{n_1}{n_2} z \\
0 & 1 \\
\end{vmatrix} = \frac{n_1}{n_2} w
$$
となる. よって,
$$
f(z. w) = \frac{1}{\Gamma(\frac{n_1}{2}) \Gamma (\frac{n_2}{2}) 2^{\frac{n_1 + n_2}{2}}} {\frac{n_1}{n_2} zw}^{\frac{n_1}{2} - 1} {w}^{\frac{n_2}{2} - 1} e^{- \frac{\frac{n_1}{n_2} zw + w}{2}}
$$
求める$${F(n_1, n_2)}$$の確率密度関数は$${f(z, w)}$$の$${Z}$$の周辺確率密度関数である.
$$
\begin{align}
f(z) &= \int_0^\infty f(z, w) dw \notag \\
&= \frac{\left(\frac{n_1}{n_2}\right)^{\frac{n_1}{2}} z^{\frac{n_1}{2} - 1}}{\Gamma(\frac{n_1}{2}) \Gamma(\frac{n_2}{2}) 2^{\frac{n_1 + n_2}{2}}} \int_0^\infty w^{\frac{n_1 + n_2}{2} - 1} e^{-\frac{(n_1 z + n_2)w}{2 n_2}} dw \notag
\end{align}
$$
$${x = \frac{(n_1 z + n_2)w}{2 n_2}}$$とおくと$${w = \frac{2 n_2}{n_1 z + n_2} x}$$であり,
$$
\int_0^\infty w^{\frac{n_1 + n_2}{2} - 1} e^{-\frac{(n_1 z + n_2)w}{2 n_2}} dw = (\frac{2 n_2}{n_1 z + n_2})^{\frac{n_1 + n_2}{2}} \Gamma (\frac{n_1 + n_2}{2})
$$
となる. これを$${f(z) = \frac{\left(\frac{n_1}{n_2}\right)^{\frac{n_1}{2}} z^{\frac{n_1}{2} - 1}}{\Gamma(\frac{n_1}{2}) \Gamma(\frac{n_2}{2}) 2^{\frac{n_1 + n_2}{2}}} \int_0^\infty w^{\frac{n_1 + n_2}{2} - 1} e^{-\frac{(n_1 z + n_2)w}{2 n_2}} dw \notag}$$に代入すると
$$
\frac{1}{B(\frac{n_1}{2}, \frac{n_2}{2})} \cdot \frac{(\frac{n_1}{n_2})^{\frac{n_1}{2}} z^{\frac{n_1}{2} - 1}}{(1 + \frac{n_1}{n_2} z)^{\frac{n_1 + n_2}{2}}}
$$
が得られる. 文字を$${z}$$から$${x}$$にすればよい. $${\square}$$
期待値, 分散
$${X \sim F(n_1, n_2)}$$のとき
$$
E(X) = \frac{n_2}{n_2 - 2} \ (n_2 > 2) \\
V(X) = 2 \left(\frac{n_2}{n_2 - 2} \right)^2 \frac{n_1 + n_2 - 2}{n_1 (n_2 - 4)} \ (n_2 > 4)
$$
となる. $${n_2 \leq 2}$$のとき期待値は存在せず, $${n_2 \leq 4}$$のとき分散は存在しない.
$${(proof)}$$
$$
\begin{align}
E(X) &= \int_0^\infty x f(x) dx \notag \\
&= \frac{(\frac{n_1}{n_2})^{\frac{n_1}{2}}}{B(\frac{n_1}{2}, \frac{n_2}{2})} \int_0^\infty \frac{x^{\frac{n_1}{2}}}{(1 + \frac{n_1}{n_2} x)^{\frac{n_1 + n_2}{2}}} dx \notag
\end{align}
$$
$${1 + \frac{n_1}{n_2} x = u}$$とおくと$${x = \frac{n_2}{n_1} (u^{-1} - 1)}$$であり, $${\frac{dx}{du} = - \frac{n_2}{n_1} u^{-2}}$$である. よって,
$$
\begin{align}
\int_0^\infty \frac{x^{\frac{n_1}{2}}}{(1 + \frac{n_1}{n_2} x)^{\frac{n_1 + n_2}{2}}} dx &= \int_1^0 ( \frac{n_2}{n_1} (u^{-1} - 1))^{\frac{n_1}{2}} u^{\frac{n_1 + n_2}{2}} (- \frac{n_2}{n_1} u^{-2}) du \notag \\
&= \int_0^1 \left(\frac{n_2}{n_1} \right)^{\frac{n_1}{2} + 1} (1 - u)^{\frac{n_1}{2}} u^{\frac{n_2}{2} - 2} du \notag \\
&= \left(\frac{n_2}{n_1} \right)^{\frac{n_1}{2} + 1} \int_0^1 (1 - u)^{\frac{n_1}{2} + 1 - 1} u^{\frac{n_2}{2} - 1 - 1} du \notag \\
&= \left(\frac{n_2}{n_1} \right)^{\frac{n_1}{2} + 1} B(\frac{n_2}{2} - 1, \frac{n_1}{2} + 1) \notag
\end{align}
$$
よって,
$$
\begin{align}
E(X) &= \frac{(\frac{n_1}{n_2})^{\frac{n_1}{2}}}{B(\frac{n_1}{2}, \frac{n_2}{2})} \left(\frac{n_2}{n_1} \right)^{\frac{n_1}{2} + 1} B \left(\frac{n_2}{2} - 1, \frac{n_1}{2} + 1 \right) \notag \\
&= \frac{n_2}{n_1} \frac{\Gamma (\frac{n_1 + n_2}{2})}{\Gamma (\frac{n_1}{2}) \Gamma (\frac{n_2}{2})} \cdot \frac{\Gamma (\frac{n_2}{2} - 1) \Gamma (\frac{n_1}{2} + 1)}{\Gamma (\frac{n_1 + n_2}{2})} \notag \\
&= \frac{n_2}{n_1} \frac{\frac{1}{\frac{n_2}{2} - 1} \Gamma (\frac{n_2}{2}) \frac{n_1}{2} \Gamma (\frac{n_1}{2})}{\Gamma (\frac{n_1}{2}) \Gamma (\frac{n_2}{2})} \notag \\
&= \frac{n_2}{n_2 - 2} \notag
\end{align}
$$
また,
$$
\begin{align}
E(X^2) &= \int_0^\infty x^2 f(x) dx \notag \\
&= \frac{(\frac{n_1}{n_2})^{\frac{n_1}{2}}}{B(\frac{n_1}{2}, \frac{n_2}{2})} \int_0^\infty \frac{x^{\frac{n_1}{2} + 1}}{(1 + \frac{n_1}{n_2} x)^{\frac{n_1 + n_2}{2}}} dx \notag
\end{align}
$$
先ほどと同様に$${1 + \frac{n_1}{n_2} x = u}$$とおくと
$$
\begin{align}
\int_0^\infty \frac{x^{\frac{n_1}{2} + 1}}{(1 + \frac{n_1}{n_2} x)^{\frac{n_1 + n_2}{2}}} dx = (\frac{n_2}{n_1})^{\frac{n_1}{2} + 2} B(\frac{n_2}{2} - 2, \frac{n_1}{2} + 2) \notag
\end{align}
$$
となる. よって,
$$
\begin{align}
E(X^2) &= \frac{(\frac{n_1}{n_2})^{\frac{n_1}{2}}}{B(\frac{n_1}{2}, \frac{n_2}{2})} (\frac{n_2}{n_1})^{\frac{n_1}{2} + 2} B(\frac{n_2}{2} - 2, \frac{n_1}{2} + 2) \notag \\
&= \frac{{n_2}^2 (n_1 + 2)}{n_1 (n_2 - 2)(n_2 - 4)} \notag
\end{align}
$$
となり,
$$
V(X) = E(X^2) - (E(X))^2 = 2 \left(\frac{n_2}{n_2 - 2} \right)^2 \frac{n_1 + n_2 - 2}{n_1 (n_2 - 4)}
$$
が得られる.
t分布とF分布の関係
$${T \sim t(n)}$$のとき, $${Z \sim N(0, 1), Y \sim \chi^2 (n)}$$として, $${T^2}$$は
$$
T^2 = \left(\frac{Z}{\sqrt{\frac{Y}{n}}} \right)^2 = \frac{\frac{Z^2}{1}}{\frac{Y}{n}}
$$
である. $${Z^2 \sim \chi^2 (1)}$$であるので, $${T^2 \sim F(1, n)}$$となる.
非心F分布
$${F}$$分布についても非心$${F}$$分布がある.
$${Y_1 \sim \chi^2 (n_1, \lambda), Y_2 \sim \chi^2 (n_2)}$$で$${X_1, X_2}$$が独立のとき,
$$
X = \frac{\frac{Y_1}{n_1}}{\frac{Y_2}{n_2}}
$$
が従う確率分布を自由度$${(n_1, n_2)}$$, 非心度$${\lambda}$$の非心度$${\lambda}$$の非心$${F}$$分布という.
9. 偏差値
データの値を平均$${50}$$, 標準偏差$${10}$$のデータに変換した値を偏差値という.
データ$${x_i}$$に対する偏差値$${T_i}$$は次で定義される
$$
T_i = \frac{10 (x_i - \mu_x)}{\sigma_x} + 50
$$