見出し画像

大数の法則と中心極限定理


平均統計量への興味

数理統計学において最も興味のある統計量は平均統計量$${\bar{X} =\frac{1}{n} \sum\limits_{i=1}^n X_i}$$である。即ち独立同分布から標本$${X}$$を沢山取った過去があるとしよう。この時未来に再び取る(※何回も取ってるのだからまた取るだろう)であろう標本$${X}$$を当てる為に最も妥当と思える予測のひとつが平均統計量だと直感的に思える事からも重要なのが分かる(※ここら辺は正確に言うとそれ以外の言いようが無くなるということもあり、また私の実力不足によりやや精密な思考を基にしていない言い方をしている。推論と言うのは数学的最適性を求めると舞台の設定からして面倒くさいのである・・・)。
ここで1個や2個のデータに対しての平均統計量を考えてもしょうがないので、過去のデータはあればあるだけ望ましい(※個数nが大)とも思える。
故に我々が求めるのは$${n \rightarrow \infty}$$における平均統計量の動向予測における理論であり、それが大数の法則と中心極限定理に対する理論的な興味に繋がる。

大数の法則

上記興味における原始的な回答が大数の法則である。
$${\bar{X} \rightarrow E[X] = \mu, (n \rightarrow \infty)}$$
即ちシンボルチックに標本平均が1標本の期待値に漸近的に近づくとの主張である。
この「シンボル的に」と言う部分は厳密にいうと、左辺の標本平均$${\bar{X}}$$が標本空間$${\Omega}$$(※1標本空間の直積空間なのでnが動くたびに$${\Omega}$$や$${P}$$は厳密には違う)上の関数でり、右辺が定数であるから何らかの意味を考えないといけないという意味である。
一応結果だけ述べておくと、この収束は確率収束や概収束の意味で言える。

また老婆心ながら注意として、大数の法則(※というか数理統計学の定理のステートメント殆ど)は確率変数としての結果であり、実現値としての結果ではない。即ちステートメントの対象を実現値の平均$${\bar{x}}$$としてしまうと、標本$${\omega}$$をfixする為の不確定性の固定部分と標本数nに対する極限と言う意味での不確定性の処理部分が混ざり不要な面倒くささが生ずる。

中心極限定理

興味への答えとして大数の法則よりも高尚な答え方である。
$${P(\frac{\sqrt{n}(\bar{X} - \mu)}{\sigma} \leq x) \rightarrow \Phi (x)}$$, $${\Phi }$$は標準正規分布の分布関数
即ち、大数の法則から標本平均$${\bar{X}}$$はシンボル的に1標本の期待値$${\mu}$$へと収束するのは言え、直感的にも明らかだったのだが、大数の法則は1点への縮退のみをテーマとしておりある意味では雑である。その1点への縮退の様相を捕えようとする試みが中心極限定理である。
ここで定理の$${(\bar{X} - \mu)}$$部分は0へ縮退するから、任意$${x > 0}$$に対して、$${P(\bar{X} - \mu \leq x)}$$は極限的に確率1である。勿論これでは大数の法則から何も変わっていなく、分析的になっていない。
中心極限定理の本質は大数の法則的縮退を妨げる要因(※これは当然標本数の関数c(n)なる要請があるが)として$${\sqrt{n}}$$を掛けてやると、標本空間$${\Omega}$$上の関数の様相が標本数nを極限に向かわせるとて縮退することなく、正規分布と近くなるとして分析的になるということである。

統計学における一般的な統計量における漸近理論はこの意味を常に求める。

分散の過小評価という観点

中心極限定理の$${\sqrt{n}}$$は平均統計量を考えた時に分散が1/nだけ過小評価されるという事実から出てくる。即ち$${Var(\bar{X}) = \frac{\sigma^2}{n}}$$という評価から、$${\bar{X} \sim (\mu, \frac{\sigma^2}{n})}$$(※もし分布が正規分布$${X \sim N(\mu, \sigma^2)}$$ならば$${\bar{X} \sim N(\mu, \frac{\sigma^2}{n})}$$は中心極限定理を使わずとも成り立つ。これを正規分布の再生成という。)が従うのでこれを標準化すればよい。

中心極限定理の応用例

$${X_i}$$を成功確率pのベルヌーイ変数とすると、成功比率は$${r = \bar{X}}$$である。故にこの量は中心極限定理を通せば$${r \sim^{lim} N(p, \frac{p(1-p)}{n})}$$として分析的になる(※$${\sim^{lim}}$$は極限的に従うという意味にしてください。記号の使い方は一般的では無いです・・・)。

極値統計学(※応用編)

平均統計量に対する漸近性定理は中心極限定理として分かったが、統計学には他にも分析したい統計量が存在する。例えば、順序統計量の最大統計量$${X_{(n)}}$$が典型的で、次の一手予測が平均統計量だとするならば、最大統計量は稀だがあれば被害を齎すリスク付近に対する予測になる(※例えば自然災害)。
この統計量における中心極限定理に準ずる漸近性定理は中心極限定理ほど簡単ではない。仮定している分布の標本数nに対する最大統計量は、極限的な意味では元分布の裾の様相(※その厚さ)によって、Weibull分布、Gumbel分布、Frechet分布になることが知られている。このように中心がどんな様相であろうと、分散が存在する限り漸近的には同一な分布に従うという中心極限定理は簡明な結論になっている。

まとめ

中心極限定理が平均統計量に対する漸近理論のオチとして割と高尚であるということが分かったであろうか?
数理統計学的には初等的だが結構難しかったかもしれないので、何度も考え直して自分なりの哲学をしてみることをお勧めする。

スキやフォロー、シェア待ってます!


いいなと思ったら応援しよう!