【導出】大数の法則
サイコロを振れば振るほど、出目の平均は3.5に近づいていく。
感覚的にはそりゃそうだ、と。大数の法則と呼ぶらしい。
しかし、これは数学的にはどうなっているのか調べてみると、こんな式らしいです。強い法則と弱い法則があるのですが、今回は弱法則です。
$$
P(|\bar{X_n}-\mu|\ \geq \epsilon) \leq \lim_{n \to \infty}\dfrac{\sigma^2}{n\epsilon^2}=0 (大数の(弱)法則)
$$
要約:
【左辺】「実際の平均値($${\bar{X}}$$)」が「あるべき平均値($${\mu}$$)から一定の範囲($${\pm \epsilon}$$以内)」から外れる確率は、
【右辺】試行回数($${n}$$)をどんどん増やせば限りなく小さくなる。
さて、これを理解するにはチェビシフの不等式という、いかにも難しそうな法則が必要で、
$$
P(|X-\mu|\geq \epsilon) \leq \dfrac{\sigma^2}{\epsilon^2} (チェビシフの不等式)
$$
更にこの元ネタはマルコフの不等式というこれまた取っ付きにくそうな同じくスラブ系の名前の法則ということらしい。
$$
P(X\geq a) \leq \dfrac{E(X)}{a} (マルコフの不等式)
$$
なので、この後、マルコフ→チェビシフ→大数の法則と遡って確認していくこととなるが、まずはサイコロの期待値を図にして、そこから順を追って説明していきます。
期待値とは
期待値は、数式的に書くと、確率$${p_i}$$×出目$${x_i}$$の合計ということです。
$$
E[X]=\sum_{i=1}^{n} {p_i x_i}
$$
サイコロの例では、(イカサマでなければ)$${p_1}$$ から $${p_6}$$ まで全て同じ確率$${\dfrac{1}{6}}$$なので、結果、平均と同じことになります。
ちなみに、イカサマサイコロで例えば1の目が出やすいなら、上の図の$${p_1=\dfrac{1}{2} }$$、他の確率が$${\dfrac{1}{10}}$$とかになり、期待値は平均とズレることになります。
マルコフの不等式
結論。「赤い部分は黒枠部分より小さい」。
さて、緑色の線は、次の関数$${Y}$$を示しています。
$$
Y=\begin{cases}{0\ (X< a)}\\{a(X \geq a)}\end{cases}
$$
やや無理矢理感のある関数ですが、これは要するに右側の赤い長方形を作るための関数だと思えば良いです。
$${Y}$$の期待値$${E[Y]}$$は、赤い部分になりますが、縦が$${a}$$、横が$${P(Y=a)}$$の長方形、更に$${P(Y=a)=P(X\geq a)=P_5+P_6}$$なので(ここでは縦が$${5}$$、横が$${1/6+1/6=1/3}$$)、赤い部分の面積は、
$$
aP(X\geq a)
$$
赤い部分の面積は、黒枠の部分$${E(X)}$$の面積より明らかに小さいので、こうなります。
$$
aP(X\geq a) \leq E(X)\\
$$
不等号にイコールがつくのがやや解せませんが、恐らく一様分布的なものを想定しているかと解釈しています。
両辺を$${a}$$で割ると、
$$
P(X\geq a) \leq \dfrac{E(X)}{a}
$$
これがマルコフの不等式です。
この式の読み方は、確率変数$${X}$$が値$${a}$$を超えるときの確率は、$${X}$$全体の期待値をその値$${a}$$で割ったものが上限となるということです。
上のサイコロの例でいうと
$$
P(X\geq 5)=p_5+p_6=\dfrac{1}{3} \leq \dfrac{E(X)}{a}=\dfrac{3.5}{5}=0.7
$$
この不等式、上限設定としては割とざっくりしていますが、最終的にちゃんと使えるので問題はありません。
チェビシフの不等式
$$
P(X\geq a) \leq \dfrac{E(X)}{a} (マルコフの不等式)
$$
上のマルコフの不等式の確率変数$${X}$$は、確率変数であれば何でも成り立つので、
$$
X \rarr (X-E[X])^2, a \rarr \epsilon^2 ( \epsilon>0)
$$
と変数を入れ替えてみます。
$$
P((X-E[X])^2\geq \epsilon^2) \leq \dfrac{E[(X-E[X])^2]}{\epsilon^2}
$$
$${E[(X-E[X])^2]}$$は、分散そのものなので、$${E[(X-E[X])^2]=V[X]}$$を代入します。
$$
P((X-E[X])^2\geq \epsilon^2) \leq \dfrac{V[X]}{\epsilon^2}\\
$$
左の二乗を絶対値表記にしてチェビシフの不等式の出来上がりです。
$$
P(|X-E[X]|\geq \epsilon) \leq \dfrac{V[X]}{\epsilon^2}\\
$$
この式の読み方ですが、確率変数$${X}$$が期待値$${E[X]}$$からある数$${\epsilon}$$以上外れる確率は、$${X}$$の分散を$${\epsilon^2}$$で割ったものが上限、それ以上にはならないということです。
サイコロの場合、確率変数$${X}$$が期待値$${E[X]=3.5}$$から$${\epsilon=1}$$以上( $${X \leq 2.5, X \geq 4.5}$$)外れる確率($${p_1+p_2+p_5+p_6=\dfrac{2}{3}\approx 0.67 }$$)は、$${X}$$の分散$${V[X]=\dfrac{35}{12} \approx 2.92}$$を$${\epsilon^2=1}$$で割った$${2.92}$$が上限となるということになります。
ちなみに、$${\epsilon=2}$$のときの確率は$${\dfrac{1}{3}}$$、上限は$${0.73}$$となります。やはり上限と言っても結構余裕がありますね。
大数の弱法則
やっとここまで辿り着きました。ここから本番です。
まず、チェビシフの不等式で出てきた$${X}$$は一つでしたが、これを$${n}$$個用意し、それぞれに番号を振って$${X_1,X_2,\cdots,X_n}$$とし、代表して$${X_i}$$と表記します。
これらは全て期待値$${E[X_i]=\mu}$$、分散$${V[X_i]=\sigma^2}$$を満たすこととします。
ここで、$${X_i}$$の平均をとったものを$${\bar{X_n}}$$とすると、
$$
\bar{X_n}=\dfrac{1}{n}\sum_{i=1}^n X_i
$$
となりますが、更にその期待値と分散を計算してみます。
$$
E[\bar{X_n}]=E[\dfrac{1}{n}\sum_{i=1}^n X_i]=\dfrac{1}{n}\sum_{i=1}^n E[X_i]=\dfrac{1}{n} n \mu=\mu \\
$$
$${\bar{X_n}}$$の期待値は$${X_i}$$の期待値と等しくなります。
$$
\begin{equation*}
\begin{split}
V[\bar{X_n}] &=V[\dfrac{1}{n}\sum_{i=1}^n X_i]=\dfrac{1}{n^2}V[\sum_{i=1}^n X_i]\\
&=\dfrac{1}{n^2} (\sigma^2+\sigma^2+\cdots+\sigma^2)=\dfrac{1}{n^2}n \sigma^2 =\dfrac{1}{n} \sigma^2
\end{split}
\end{equation*}
$$
$${\bar{X_n}}$$の分散は$${X_i}$$の分散$${\sigma^2}$$の$${\dfrac{1}{n}}$$となります。
分散の場合、確率変数に係数$${\dfrac{1}{n}}$$が付いた場合はその二乗$${\dfrac{1}{n^2}}$$が前に吐き出されますが、一方分散$${\sigma^2}$$を$${n}$$個足し合わせるので約分されて$${\dfrac{1}{n}}$$が生き残っている訳です。
ここで、$${\bar{X_n}}$$自体も確率変数なので、チェビシフの不等式の$${X}$$に代入ができます。上記より、$${E[\bar{X_n}]=\mu}$$、$${V[\bar{X_n}] =\dfrac{1}{n} \sigma^2}$$となるので、
$$
P(|\bar{X_n}-E[\bar{X_n}]|\geq \epsilon)=P(|\bar{X_n}-\mu|\geq \epsilon) \leq \dfrac{V[\bar{X_n}]}{\epsilon^2}=\dfrac{\sigma^2}{n\epsilon^2}
$$
すなわち、
$$
P(|\bar{X_n}-\mu|\geq \epsilon) \leq \dfrac{\sigma^2}{n\epsilon^2}\\
$$
となります。
$${X}$$が一つのときと違って、$${n}$$個寄せ集めると右辺に$${\dfrac{1}{n}}$$が出現しています。
ということは、$${n}$$を増やせば増やすだけ、右辺はいくらでも小さくでき、もし無限に増やすことができればゼロになるということです。数式で書くと、
$$
P(|\bar{X_n}-\mu|\ \geq \epsilon) \leq \lim_{n \to \infty}\dfrac{\sigma^2}{n\epsilon^2}=0
$$
となります。これが大数の弱法則です。
この法則はこう読めばいいでしょう。
「たくさんの確率変数を寄せ集めたものの平均が、個々のメンバー変数に共通の期待値を中心とした一定の範囲を外れてしまう確率の上限は、試行回数を増やせばどんどん小さくなる。
その範囲をいくら小さくしても、頑張ってもっと寄せ集めて試行回数を増やせばいつかはほぼゼロにできる。
なので確率変数を寄せ集めれば寄せ集めるほど、本来の期待値の近くにその平均値は集まっていく。」
サイコロを振れば振るほど、出目の平均は3.5に近づいていくのは、こういう感じで証明されるというお話でした。