p値に頼らない解析方法？「ベイズ推定法」って何？

2020年8月7日 04:51

昨日、『「統計的有意である」に頼りすぎていませんか？』という記事を書きました。

科学の世界で大事にされてきた”p<0.05”の神話が打ち砕かれようとしているのを目の当たりにして、驚きでした。

p値を姿を消すことはないが、p値に変わる方法が増えてくるのでは無いかと言われいます。

その中で注目されているのが、「ベイズ推定法」。全然馴染みがなくて知りませんでした。一体どんなものなのか？調べてみましょう。

—————

◇ 「ベイズ推定」って何？

2020年3月号の日経サイエンスにはこう解説されています。

ベイズ推定では、未知量に対して個々人が抱く不確実性を確率分布で表す。
最初の考え（データを見る前の分布）とデータから得られた情報をベイズの定理を用いて結びつけ、更新された考えについて確率分布分布を数学的に求める。

なんのことかさっぱり...

別の文献を見てみると、

「パラメータがおおよそどのような値を取るか」という事前の情報がある時に、データによってその情報を更新する手法として発展してきた。
事前の情報は「事前分布」と呼ばれる確率分布として表される。
この確率が高いほどパラメータがその値を取るであろう見込みが大きいことを示している。

うーーーん...ちょっと難しいかも...

従来の統計学の確率（頻度論）は、「サイコロを振って1の目が出る確率」という不確実な事象が発生する頻度を表現するもの。

得られたデータが母集団からどれくらいの確率で発生するものなのか？を考えます。パラメータが定数、データが変数。

ベイズ推定は、「見込みの大きさを表す確率（主観確率）」を使います。
頻度論と逆でパラメーターが変数、データが定数。手元にあるデータが、どのようなパラメータに基づく母集団から得られたのかを推定する。

「事前分布」とデータによって更新された新たな確率分布「事後分布」の関係は、

事後分布∝尤度×事前分布

と書くことができます。“∝”は比例することを表しています。尤度はそのパラメータを使ったモデルがどれくらいのデータと合致するか、もっともらしさとも言われます。

迷惑メールのスパム・フィルターに活用されていることが有名だそうです。（ベイジアンフィルターとも言われているそう）

迷惑メールの具体例をいくつか教えることによって、新しくきた迷惑メールを見つける精度が高くなっていくようです。

これって、機械学習にも使えそうですね。（既に使われているようです）

また、生化学反応のモデルの構築、構造解析などなど、事前の情報が分かっていることで次のパターンを推測するのに使えるようです。

いわゆるシミュレーションをするケースで活躍の場がありそうです。

Wikipediaなどにも例題が出ていたので、もう少し勉強する必要があるかなと思いました。

30分の勉強ではこれが限界...

それでは、また！

最後までお読みいただきありがとうございます。よろしければ「スキ」していただけると嬉しいです。いただいたサポートはNGS解析をするための個人用Macを買うのに使いたいと思います。これからもRの勉強過程やワーママ研究者目線のリアルな現実を発信していきます。