見出し画像

nが大きいと二項分布は正規分布に近似できる理由

二項分布とは?

二項分布は、「成功」と「失敗」のように、2つの結果がある試行をn回繰り返すとき、成功する回数を表す分布だ。例えば、コインを10回投げて表が出る回数は、成功が「表」、失敗が「裏」となる二項分布で表せる。

正規分布とは?

正規分布は、山形のグラフの形をしていて、平均の周りにデータが集まり、遠ざかるほど少なくなる分布だ。例えば、身長のデータが正規分布に従うことが多い。たくさんの人の身長を調べると、平均身長の近くに多くの人がいて、極端に高い人や低い人は少なくなる。

じゃあ、どうして二項分布が正規分布に近づくの?

ここで大事なのは「nが大きくなると」という部分だ。nが小さいとき、二項分布はコインの表や裏が何回出るかといった、離散的な数字(0回、1回、2回…)になる。でも、nが大きくなってくると、だんだんとコインの表が出る回数は、ある平均的な値の周りに集まりやすくなる。これは、成功確率が一定で何度も繰り返すと、だんだんと結果が平均に近づいて、偶然が少なくなってくるためだ。


例:コインを100回投げる場合

コインを1回投げると、結果は「表」か「裏」だね。もし表が出る確率が50%だとすると、100回投げたときに表が出る回数は、だいたい50回が一番多くなりそうだ。これは、コインの成功(表)と失敗(裏)が同じ確率だから、平均的には半分ずつ出ると期待できるからだよ。

二項分布の形

さて、100回投げたときに表が出る回数は、0回から100回のどこかだよね。でも、表が出る回数が0回や100回になるのはとてもまれだ。ほとんどの場合、50回前後の結果が出やすい。例えば、45回から55回の範囲に集中しやすい。これが二項分布の特徴で、結果が離散的な値(0回、1回、2回…)で表される。

実際にコインを100回投げた結果をグラフにしてみる。

横軸は「表が出た回数」で、縦軸はその回数が出る確率を表す

このグラフでは、赤い破線が平均の50回を示していて、表が50回前後で最も多くなる様子が見える。試行回数が多いと、結果が平均値(50回)の周りに集中し、左右対称な形に近づくため、これが正規分布に似た形になるんだ。このように、たくさん試行を繰り返すと、個々の結果のばらつきが平均に集まって、全体の形が正規分布に近づいていくよ。 ​

中心極限定理の力

この現象が起こる理由は、中心極限定理という数学の法則に基づいている。たくさんの独立した試行(ここではコイン投げ)を行うと、その結果がどんな分布をしていても、最終的には平均の周りにデータが集まっていき、正規分布の形に近づくんだ。これは、コインのように個々の結果がばらばらでも、回数を増やすと全体として平均に引き寄せられる性質があるからだよ。


いいなと思ったら応援しよう!