基礎からのベイズ統計学
『基礎からのベイズ統計学』の前半部分を読んでる。
世の中のあらゆることに対して予測を立てようと思った時、予測を立てやすい事柄(たとえばさいころを振ったときに6が出る確率)と立てにくいのが少し難しい事柄(文面のどこかに『当選』と書かれたメールがスパムである確率)と立てるのがかなり困難な事柄(次の十年で富士山が噴火する可能性)がある。この予測の立てやすさは、その事柄が起こることを説明する確率分布を明確に見出せるかどうかによって決まる。
繰り返し実験できる事柄(さいころをふったとき6が出る確率)についてなら、確率分布を推測するのはたやすい。さいころの確率についてはよく研究されていて、基本的には1から6の目が出る確率はそれぞれ1/6になる。実際に600個のさいころを買ってきて、同時に振ると、およそ100個のさいころで6の目が出ているはずだ。ちなみに、このときぴったり100個のさいころが6の目を出しているかどうかは分からない。なぜかというと、確率はあくまで確率であり、未来そのものではないからだ。別の言い方をすると、『さいころをふったとき6が出る確率』という確率それ自体も『さいころをふったとき6が出る確率が正しいという確率』に支配された確率であるということだ。すなわち、確率にもゆらぎがあり、このゆらぎを専門用語で分散という。
さいころに関しては、よく実験されているため、背後にある確率のことはよくわかっている。いかさまがない限り、それぞれの目が出る確率は1/6であり、これは不変だ。しかしながら、世の中には、背後にある確率が変動する事柄が数多く存在する。たとえば、『当選』と書かれたメールがスパムである確率だ。一般的に言うと、『当選しました』というメールが見知らぬ人から届いた場合、それはワンクリック詐欺だ。しかしながら、あなたが市議会議員に立候補しているような場合、『当選』メールがスパムであるとは限らなくなる。あるいは、世の中のワンクリック詐欺のトレンドが変化していった結果、もはやワンクリック詐欺が『当選』という文字を使わなくなるかもしれない。つまり、『当選』がスパムである確率が変わったわけだ。
このように、以前と比べて確率が変化していくような場合、正しい『確率』はどのようにすれば調べることができるのだろうか。その問いに関する一般的な回答は、『それまでのスパムの確率を事前分布とし、この事前確立を『新たなスパムのトレンド』で更新することで得られた事後確率を、新たな確率として考えればいい』ということになる。要するに、新たなトレンドが生まれて確率が変化した場合、新たなトレンドのデータをもとに、過去の確率を新しく書き換えることができる。これを、ベイズ統計によるベイズ更新と呼ぶ。
さて、さいころを振ったときの出目に関しては、それぞれの目が等しい確率で出るということが分かっている。このことを、専門用語で離散一様分布という。しかしながら、世の中には離散一様分布では説明できない現象がある。たとえば、夏に蚊が家の中を飛び回る確率を求めるにはどうすればいい? 蚊が室内を飛び回る確率は、さいころが6を出す確率とは原理が異なる。言い方を変えると、離散一様分布では、蚊が室内を飛び回る確率を表現することができない。結論から言うと、蚊の場合は主にポアソン分布を使う。
ここまでの話を整理する。さいころの出目を説明するためには離散一様分布を使うことが分かった。蚊が飛ぶ確率を説明するにはポアソン分布を使えばいいらしいことも分かった(ということにしておく)。では、まったく別の確率、たとえば明日東京で大地震が起こり、地面の中からゴジラが出てくるにはどんな分布を使えばいい?
これに関する回答は、『わからない』だ。おそらくポアソン分布を使えば説明できるだろう(ポアソン分布は、地震や災害など、不定期に起こる事柄を説明するときに使う)。逆に言えば、ポアソン分布をつかえば、それっぽい確率を『でっちあげる』ことはできる。ひょっとしたら、実際、ポアソン分布を使えばそれなりにいい精度で『明日東京で大地震が起こり、地面の中からゴジラが出てくる確率』を表現できるかもしれない。けれども、いくら制度がよくてもおそらくその確率は『本物』ではなく、単なる近似に過ぎないだろう。つまり、本当に正しい意味で、『明日東京で大地震が起こり、地面の中からゴジラが出てくる確率』を求めることはできない。
もちろん、『明日東京で大地震が起こり、地面の中からゴジラが出てくる確率』は極端な例だから、本当に正しい意味でこの確率を求められなくてもいい。では、先ほどの、『蚊が飛ぶ確率』はどうだろう? ポアソン分布を使えばいいといったが、そもそもポアソン分布を使うことにどんな根拠があるのか?
もちろん、根拠はない。ポアソン分布を使うのに、もっともらしい理由をつけることはできる(みんな使ってるから、過去の実験結果とわりと一致するから、ポアソン分布は原理的に不定期に起こる事柄を説明するときに使うものだから等)が、結局のところは、ポアソン分布を使おうという判断は、この問題を解こうと考えた自分自身の信念によるものでしかない。つまり、統計学者は、ある事柄を説明するために、それが本当に合っているかどうかによらず、恣意的に特定の確率モデルを選ぶことができる。このことを、(科学ではなく)自分の信念に基づいて選択された確率という意味で、主観確率と呼ぶ。さらに言うと、主観確率では、あえて歪んだモデルを選ぶことで、自分が説明したいとおりに確率をねじまげることができる。大昔、頻度論者とよばれる派閥の統計学者たちはこういった事情が分かっていたから、主観確率を扱うベイズ統計を忌み嫌った(らしい)。
みたいなことが書いてある。あとは、自分が使っているものが主観確率であるというのを踏まえたうえで、それをどのように現実の問題に適用していくのか、みたいな話があったり、いろいろな確率分布の特長の説明があったり、特定の物事を説明する確率分布が分からないときに、どうやってその確率分布を計算すればいいか、みたいな話が出てきたところまで読んだ。
あとは、確率分布を調べるためにはその分布から得られた実現値(さいころで説明すると、離散一様分布から得られたさいころの出目)が必要だが、そもそも実現値があまり得られない場合に、確率分布を表す変数(母数)をいろいろ変化させて新たな確率分布を作り、この確率分布から乱数的にダミーの実現値を生成させ、それを参照しながら正しい母数を求めていく、みたいなことをやるためのマルコフ連鎖モンテカルロ法っていう方法の説明が後半の主題(というかこの本のメイン)なんだけど、今回はそこは読まない。
みたいな感じ。