
そのコイン、まとも? いかさま?
講習「AI時代の確率・統計 with エクセル」の【実習課題】です。前半は条件付き確率を求める計算問題、後半はその計算式を組み込んでエクセルでシミュレーションしようというものです。かなり高難度です。
前半はそれ以前に実習した計算問題「条件付き確率からベイズ推定へ」が、後半は「モデル化とシミュレーション」の課題「埃が風に舞う→埃は部屋の隅にたまる」が参考になるでしょう。やれるものなら、どうぞ。
そのコイン、まとも? いかさま?
◇ まともコイン :表と裏が均等に出る普通のコイン
◇ いかさまコイン:表が出る確率が 2/3 になるように仕込んであるコイン
とします。ただし、目の前にあるコインがどちらのコインなのかはわかりません。つまり最初は、そのコインがどちらのコインであるかについて、半々(確率 1/2)だと判断するしかありません。
そこで、実際にコインを投げて、表が出るか裏が出るかを試してみることにしました。もし表が出れば「いかさまコインじゃないか」と疑いを強めるでしょう。反対に、裏が出れば「まともコインかな」と安心する方に傾くでしょう。その判断の度合い、それが条件付き確率です。
まず1回目、投げてみました。その結果、「表」が出ました。この時点で、そのコインがまともコインだと判断できる確率は _(1)_ となります。
でも、1回ではまだわかりません。そこで2回目を投げてみました。その結果、今度は「裏」が出ました。この時点で、そのコインがまともコインだと判断できる確率は _(2)_ と変わります。
続いて、ベイズ推定をエクセルでシミュレーションしてみましょう。
まともコインといかさまコインの綱引き合戦
3回目、4回目…と続けると、そのたびにこの値は変わります。さらに何回も投げ続ければ、そのコインがまともコインなのかいかさまコインなのかがだんだん見えてくる(それがまともコインだと判断できる確率が 0 か 1 に近づいていく)でしょう。
ところで、3回目、4回目…と手計算を続けていくのは大変です。そこで、エクセルの出番です。乱数を組み込んで、条件付き確率の関数式を入力したら、あとは単純計算はエクセルに任せましょう。さらに計算結果をグラフ化すれば、まともコインの方に振れたりいかさまコインの方に振れたり、まともコインといかさまコインが綱引きをしているようなグラフになりそうです。
この流れが「ベイズ推定」です。そしてこれは本質的には「条件付き確率」そのものです。データを集めながら、判断を修正していって、どんどん精度を高めていくわけです。似たような判断の仕方はIT機器でもネット技術でもいろんなところで使われています。迷惑メールの振り分けやアマゾンのお勧め本、グーグル検索で上位に表示する仕組みなどがそれです。
では、《解説・解答》と行きましょう。
条件付き確率の計算
前半の問題 _(1)_ と _(2)_ は、頑張れば高校数学の範囲で何とか解けそうな「条件付き確率」の問題です。まずそこまでの《解説・解答》といきましょう。
「$${A}$$が起きたとき、その条件の下で$${B}$$が起きる条件付き確率」を$${P_A(B)}$$と書きます。一般に
$${P(A∩B)=P(A)\cdot{P_A(B)}}$$ ⇔ $${P_A(B)=\dfrac{P(A∩B)}{P(A)}}$$ … ①
が成り立ちます。
さて、ここでの設定は、
・まともコイン :表と裏が均等に出る普通のコイン
・いかさまコイン:表が出る確率が$${\dfrac{2}{3}}$$になるように仕込んであるコイン
です。ただし、目の前のコインがどちらのコインなのかはわかりません。
ここで、$${A}$$ , $${B}$$を次のように設定します。
$${A}$$:コインを投げて表が出る
$${B}$$:そのコインがまともコインである
最初は$${P(B) = P(\bar{B}) = \dfrac{1}{2}}$$ … ② ですが、コインを投げるたびに値が更新されます。このとき①より
$${P_A(B)=\dfrac{P(A∩B)}{P(A)}=\dfrac{P(B){\cdot}1/2}{P(B){\cdot}1/2+P(\bar{B}){\cdot}2/3}}$$ … ③
$${P_{\bar{A}}(B)=\dfrac{P(\bar{A}∩B)}{P(\bar{A})}=\dfrac{P(B){\cdot}1/2}{P(B){\cdot}1/2+P(\bar{B}){\cdot}1/3}}$$ … ④
となりますが、実際に「表」が出たときは③が新たに$${P(B)}$$となり、実際に「裏」が出たときは④が新たに$${P(B)}$$となります。なお、$${P(\bar{B})=1-P(B)}$$が「そのコインがいかさまコインだと判断できる確率」です。
(1) 1回目に「表」が出たなら、値②を式③に代入して$${P_A(B)= \dfrac{3}{7}}$$です。
この時点で$${P(B)= \dfrac{3}{7}}$$ , $${P(\bar{B})= \dfrac{4}{7}}$$… ⑤ となりました。(1)の答えは$${\dfrac{3}{7}}$$です。
(2) 続いて2回目に「裏」が出たなら、値⑤を式④に代入して$${P_{\bar{A}}(B)=\dfrac{9}{17}}$$です。
この時点で$${P(B)= \dfrac{9}{17}}$$ , $${P(\bar{B})= \dfrac{8}{17}}$$… ⑤ となりました。(2)の答えは$${\dfrac{9}{17}}$$です。
エクセルでシミュレーション
下は、以上のことを踏まえてエクセルでシミュレーションしたものです。

セル E1 = IF (RAND( )<0.5 , 1/2 , 2/3)
(そのコインがまともコインかいかさまコインかを決める)セル B3 = IF (RAND( )<$E$1 , ”表” , ”裏”)
(コインを振って表か裏が出る)セル C3 = IF (B3=”表” , C2/2/(C2/2+D2*2/3) , C2/2/(C2/2+D2/3))
↑ ↑
上③より 上④より
(これが$${P(B)}$$で、コインを投げるたびに更新される)セル D3 = 1-C3
セル B3〜D3 を下方向にコピーして、C列をグラフ化すると、次のようなグラフが得られました。

グラフの横軸が「そのコインがまともコインだと判断できる確率」で、縦軸が「コインを投げた回数」です。時間経過とともに、いかさまの方に触れたり、まともの方に触れたり、実際に綱引きしているみたいに見えませんか。すぐに勝負がつく場合、なかなか勝負がつかない場合それぞれありますが、その点もリアルな綱引きに似ています。
問題は「勝ち負けを決める線をどこに引くか」です。スタートラインから近いところにその線を引けば、決着は早くつきますが、判断を誤る可能性が高くなります。スタートラインから遠いところに引けば、判断の信頼性は高まりますが、いつまでも決着がつかないことになりかねません。その点もリアルな綱引きに似ています。
ところで、この綱引きでは100%正しい判定は下せません。「そのコインがまともコインだと判断できる確率」が 1 や 0 に近づくことはあっても、絶対に 1 や 0 にはなりません。
だから、どこかに必ず基準を設けなければなりません。どこに線を引くかは、あなたの意思の問題です。統計は「正しいこと」は何も言ってはくれませんが、うまく使えば、あなたに判断材料を与えてくれます。判断するのはあなたです。
◇ ◇ ◇
〜 エクセルでシミュレーションする 〜
▷ 埃が風に舞う
▷ 情報伝達をグラフに=見える化する
▷ そのコイン、まとも? いかさま?