統計学入門(基礎統計学I) 正規分布①
はじめに
統計検定準1級に向けてまずは多変量解析入門や!!と意気込んだものの早速躓いた。
→導入部の確率基礎は統計検定2級でさんざんやったし読める。
→正規分布の確率密度関数の式は覚えなくていい感じやったから、うろ覚えだなー。まあ復習したらいけるか、
→ん?2次元正規分布の確率密度関数ってどうやって導出するんや?分からん。。。
ということで、2次元正規分布の導出を目標に基礎統計学I 統計学入門(赤本)の読書メモを整理する。
正規分布
代表的な連続型の確率分布であり多くの現象に当てはまるため、統計学の理論と応用上も重要な理論とのこと。(一方で何でもかんでも正規分布に従うと仮定するのは考えものであることは過去記事の通り)
正規分布の密度関数
$$
f(x) = \frac{1}{\sqrt{2\pi}\sigma}{exp\frac{(-(x-μ)^2}{2\sigma^2}} -\infin < x < \infin
$$
で与えられる。定数$${ \frac{1}{\sqrt{2\pi}\sigma}}$$は
$$
\int_{-\infin}^{+\infin}exp\frac{-(x-μ)^2}{2\sigma^2}dx =\sqrt{2\pi}\sigma
$$
からきており、$${\int_{-\infin}^{+\infin}f(x)dx = 1}$$とするための規格化定数である。正規分布をガウス分布と呼ぶこともあるとのこと。
確率変数Xがこの正規分布に従うとき、その期待値$${E(X)}$$と$${V(X)}$$は
$$
E(X) = \int_{-\infin}^{+\infin}\frac{1}{\sqrt{2\pi}\sigma}{exp\frac{(-(x-μ)^2}{2\sigma^2}}dx = μ
$$
$$
V(X)=\int_{-\infin}^{+\infin}(x-μ)^2 (\frac{1}{\sqrt{2\pi}\sigma}exp\frac{-(x-μ)^2}{2\sigma^2}) = \sigma^2
$$
となる。よって$${f(x)}$$を平均$${μ}$$、分散$${\sigma^2}$$の正規分布といい、$${N(μ,\sigma^2)}$$で表される。
正規分布の特徴
Xが正規分布に従うとき、その線形変換$${Y=ax+b}$$は$${N(μ,\sigma^2)}$$に従う。
標準化変数$${Z =\frac{(X-μ)}\sigma}$$は正規分布$${N(μ,\sigma^2)}$$に従う。これを標準正規分布という。 (この証明は$${a =1/σ,b = -u/\sigma)}$$とおけばよい。どんな正規分布の確率計算も標準正規分布に帰着する。
標準正規分布の累積分布関数は下式で表せられる。
$$
\phi(z) = \int_{-\infin}^{+\infin}\frac{1}{\sqrt{2\pi}}exp(\frac{-x^2}{2})dx
$$
付表としてあらゆる統計学の教科書に与えられている。
さらに、主な区間の確率がよく知られている。
$$
P(-k ≦ Z ≦ k) = P(Z ≦ k) - P(Z<-k) = \phi(k) - \phi(-k)
$$
ここで、$${k = 1, 2, 3}$$とした時の区間外に来る確率は以下の通り。
$$
P(-1 ≦ Z ≦ 1) = P(Z ≦ 1) - P(Z<-1) = \phi(1) - \phi(-1) = 0.6827 (ほぼ1/3)
$$
$$
P(-2 ≦ Z ≦ 2) = P(Z ≦ 2) - P(Z<-2) = \phi(2) - \phi(-2) = 0.9545 (ほぼ1/20)
$$
$$
P(-3 ≦ Z ≦ 3) = P(Z ≦ 3) - P(Z<-3) = \phi(3) - \phi(-3) = 0.9973 (ほぼ3/1000)
$$
この$${-3 ≦ Z ≦ 3}$$は元の$${X}$$でいうところの$${μ-3σ ≦ X ≦ μ +3σ}$$に相当する。
これは事実上すべて(全体の確率=1)をカバーするため、この区間を3シグマ範囲と呼ぶ。
正規分布はランダム系列からその和や平均としても生じる。試行回数nが十分大きいときにはほぼ正規分布に従って分布する。これを中心極限定理という。
中心極限定理の内容は次の通り。
同一の確率分布f(x)ともつn個の独立な確率変数の和$${X_1+X_2 +X_3+… X_n}$$はもとのf(x)が何だろうともある緩い仮定を満たす場合、nが十分大きいときほぼ正規分布に従うと仮定してよい。(ある緩い仮定って何?)