p値に頼らない解析方法?「ベイズ推定法」って何?
昨日、『「統計的有意である」に頼りすぎていませんか?』という記事を書きました。
科学の世界で大事にされてきた”p<0.05”の神話が打ち砕かれようとしているのを目の当たりにして、驚きでした。
p値を姿を消すことはないが、p値に変わる方法が増えてくるのでは無いかと言われいます。
その中で注目されているのが、「ベイズ推定法」。全然馴染みがなくて知りませんでした。一体どんなものなのか?調べてみましょう。
—————
◇ 「ベイズ推定」って何?
2020年3月号の日経サイエンスにはこう解説されています。
ベイズ推定では、未知量に対して個々人が抱く不確実性を確率分布で表す。
最初の考え(データを見る前の分布)とデータから得られた情報をベイズの定理を用いて結びつけ、更新された考えについて確率分布分布を数学的に求める。
なんのことかさっぱり...
別の文献を見てみると、
「パラメータがおおよそどのような値を取るか」という事前の情報がある時に、データによってその情報を更新する手法として発展してきた。
事前の情報は「事前分布」と呼ばれる確率分布として表される。
この確率が高いほどパラメータがその値を取るであろう見込みが大きいことを示している。
うーーーん...ちょっと難しいかも...
従来の統計学の確率(頻度論)は、「サイコロを振って1の目が出る確率」という不確実な事象が発生する頻度を表現するもの。
得られたデータが母集団からどれくらいの確率で発生するものなのか?を考えます。パラメータが定数、データが変数。
ベイズ推定は、「見込みの大きさを表す確率(主観確率)」を使います。
頻度論と逆でパラメーターが変数、データが定数。手元にあるデータが、どのようなパラメータに基づく母集団から得られたのかを推定する。
「事前分布」とデータによって更新された新たな確率分布「事後分布」の関係は、
事後分布∝尤度×事前分布
と書くことができます。“∝”は比例することを表しています。尤度はそのパラメータを使ったモデルがどれくらいのデータと合致するか、もっともらしさとも言われます。
◇ 「ベイズ推定」が活用できるところ
迷惑メールのスパム・フィルターに活用されていることが有名だそうです。(ベイジアンフィルターとも言われているそう)
迷惑メールの具体例をいくつか教えることによって、新しくきた迷惑メールを見つける精度が高くなっていくようです。
これって、機械学習にも使えそうですね。(既に使われているようです)
また、生化学反応のモデルの構築、構造解析などなど、事前の情報が分かっていることで次のパターンを推測するのに使えるようです。
いわゆるシミュレーションをするケースで活躍の場がありそうです。
Wikipediaなどにも例題が出ていたので、もう少し勉強する必要があるかなと思いました。
30分の勉強ではこれが限界...
それでは、また!