二項分布とは
今回は二項分布について解説します。
何か難しい式が出てくるイメージのある二項分布ですが、分かってしまえば何てことはありません。
では始めましょう。
二項分布の前にベルヌーイ試行とは何かを理解しましょう。
ベルヌーイ試行とは
試行の結果が2種類
各試行が独立(1つの試行が他の試行に影響を及ぼさない)
2種類の事象の発生確率が常に一定
の3つの条件を満たす試行のことです。
試行ってのはゲームとかテストみたいなイメージでOKです。
コイントスもベルヌーイ試行ですし、パチンコもベルヌーイ試行ですね。
パチンコで考えるなら
試行の結果が2種類 → 1回転ごとにアタリかハズレの2種類の結果しかない。
各試行が独立 → アツい演出が来たら次の回転は当たり易いとかはない。前の回転の演出がどうなっても、次の回転で当たる確率に影響しない。
2種類の事象の発生確率が常に一定 → 大ハマりした台は当たりやすいこともない。 1000回ハマろうが2000回ハマろうが次の回転で当たる確率は同じ。
ってことですね。
では、実際に確率を計算してみましょう。
確率は以下の式で求めることができます。
試行はベルヌーイ試行であるとし、1回の試行である事象の起こる確率が$${P}$$であるとき、試行を$${n}$$回繰り返して、この事象が$${x}$$回実現する確率は
$$
P(x)={}_nC_xP^x(1-P)^{n-x}
$$
となります。
はい、訳わかりませんね。日本語ムズすぎでしょ笑。
大丈夫です。ゆっくり解説します。
分かりやすいコイントスで考えてみます。
最初の$${P(x)}$$ですが、これは$${x}$$回表が出る確率って意味です。
$${P(3)}$$だったら、右辺は3回表が出る確率を表してますよ〜って意味なんですね。
今回は表が1回出る確率を知りたいので、左辺は$${P(1)}$$になるわけです。
表が一回出る確率を表すぜ!っていう決意表明みたいなもんです。
右辺にいきます。
最初の$${{}_nC_x}$$はコンビネーションです。
$${n}$$は試行回数なので$${n=10}$$。今回は10回中1回しか表が出ない確率を知りたいので、$${x=1}$$です。
よって、$${{}_{10}C_1}$$ですね。
今回、表が出る確率を知りたくて、問題文で表が出る確率が$${0.5}$$と教えてくれているので、$${P}$$はそのまま$${0.5}$$です。
なので、$${P^x}$$は$${0.5^1}$$。
$${(1-P)^{n-x}}$$は$${0.5^9}$$になりますね。
式をまとめて書いてみます。
$$
P(1)={}_{10}C_1\cdot0.5^1\cdot0.5^9
$$
これを計算するとコイントスで10回中1回しか表が出ない確率を求めることができます。
計算してみましょう。
$$
P(1)=\cfrac{10}{1}\cdot0.5\cdot0.00195=0.0098=0.98\%
$$
コイントスを10回やって、表が1回しか出ない確率は1%もないということですね。
さて、こうなると更に気になることが出てきます。
「1回も表が出ない確率ってどれくらいなんだろう・・・?」
「無難に5回表が出る確率って・・・?」
気になりますね。
計算してみましょう。
バラバラに計算してもよく分からないので、計算結果をグラフにして一目で分かるようにしてみます。
こうなりました。
$${x}$$軸は表が出る回数を表していて、$${y}$$軸はそのときの確率を表しています。
表が出る回数が1のとき、確率は0.0098になってますので、さっきの計算結果と一致してますね。
グラフを見ると、表が5回でる確率は0.2461。つまり24.61%であることが分かります。で、やっぱり表が5回出る確率が一番高いんですね。イメージ通りです。
で、表が1回出る確率も表が9回出る確率も0.0098で同じ確率です。
当然っちゃ当然ですか。表が出る確率も裏が出る確率も0.5、つまり50%ですからね。
このようにして、グラフにすると、表が出る回数に応じて確率がどのように分布しているか分かるんですね。
このグラフ(確率の分布)のことを二項分布と呼びます。
何にも難しくないですよね。ただゲームの確率を計算してグラフにしただけです。
「なーんだ、そんなことか」
と思ったアナタ。もう二項分布はほとんど理解したと言えるでしょう。
さぁ二項分布の勉強もあと少しです。
次に理解してほしいのは、二項分布の期待値と分散です。
表が出る回数の期待値とは簡単に言えば、表が出る回数の平均です。
ゲームを行うのが1回だけなら、たまたま表が1回しか出ず、裏が9回出るかもしれません。しかし、10回のコイントスを100回も200回も行ったとき、表が出る回数は何回が一番多くなりそうでしょうか?
表も裏も50%の確率なので、なんとなーく5回が一番多くなりそうな気がしますね。これが期待値です。
分散というのは結果のばらつき度合いです。
10回のコイントスで表が出る回数は0回〜10回までありますが、期待値(5回)を中心にどれぐらい結果(=表が出る回数)がばらつくかを表す数字です。
分散が大きいほど、結果がばらつく。つまり期待値から離れた結果が出る可能性が高い、ということですね。
では、このコイントスの期待値と分散はどうやって求めるんでしょうか。
これは簡単な式で求められます。
$$
期待値 = np
$$
$$
分散 = np(1-p)
$$
簡単ですね。試しに計算してみましょう。
$${n}$$は試行回数なので、$${n=10}$$。$${p}$$は試行の確率ですから、$${p=0.5}$$です。
よって、
$$
期待値=np=10×0.5=5
$$
$$
分散=np(1-p)=10×0.5×(1-0.5)=2.5
$$
となるわけです。
二項分布の期待値と分散はすべてこの式で求められます。
何回やるのか$${(n)}$$、それが起こる確率はいくつなのか$${(p)}$$の2つだけ分かれば良いので簡単ですね。
(本当は$${np(1-p)}$$が5以上でないと、正規分布と呼べず、分散を求めても意味がないのですが、今回は分かりやすさを優先して、この数字を使っています)
二項分布の期待値と分散は、後ほど検定と推定をするのに必要になります。
ここで覚えておきましょう。
以上、二項分布の解説でした。
二項分布は苦手意識を持っている人が多い印象ですが、実生活に関わる事例も多く、理解できると意外と面白かったりします。
少しでもお役に立てたならスキとフォローをよろしくお願いします!
この記事が気に入ったらサポートをしてみませんか?