見出し画像

p値に頼らない解析方法?「ベイズ推定法」って何?

昨日、『「統計的有意である」に頼りすぎていませんか?』という記事を書きました。

科学の世界で大事にされてきた”p<0.05”の神話が打ち砕かれようとしているのを目の当たりにして、驚きでした。

p値を姿を消すことはないが、p値に変わる方法が増えてくるのでは無いかと言われいます。

その中で注目されているのが、「ベイズ推定法」。全然馴染みがなくて知りませんでした。一体どんなものなのか?調べてみましょう。

—————

◇ 「ベイズ推定」って何?

2020年3月号の日経サイエンスにはこう解説されています。

ベイズ推定では、未知量に対して個々人が抱く不確実性を確率分布で表す。
最初の考え(データを見る前の分布)とデータから得られた情報をベイズの定理を用いて結びつけ、更新された考えについて確率分布分布を数学的に求める。

なんのことかさっぱり...

別の文献を見てみると、

「パラメータがおおよそどのような値を取るか」という事前の情報がある時に、データによってその情報を更新する手法として発展してきた。
事前の情報は「事前分布」と呼ばれる確率分布として表される。
この確率が高いほどパラメータがその値を取るであろう見込みが大きいことを示している。

うーーーん...ちょっと難しいかも...

従来の統計学の確率(頻度論)は、「サイコロを振って1の目が出る確率」という不確実な事象が発生する頻度を表現するもの。

得られたデータが母集団からどれくらいの確率で発生するものなのか?を考えます。パラメータが定数、データが変数。

ベイズ推定は、「見込みの大きさを表す確率(主観確率)」を使います。
頻度論と逆でパラメーターが変数、データが定数。手元にあるデータが、どのようなパラメータに基づく母集団から得られたのかを推定する。


「事前分布」とデータによって更新された新たな確率分布「事後分布」の関係は、

事後分布∝尤度×事前分布

と書くことができます。“∝”は比例することを表しています。尤度はそのパラメータを使ったモデルがどれくらいのデータと合致するか、もっともらしさとも言われます。

◇ 「ベイズ推定」が活用できるところ

迷惑メールのスパム・フィルターに活用されていることが有名だそうです。(ベイジアンフィルターとも言われているそう)

迷惑メールの具体例をいくつか教えることによって、新しくきた迷惑メールを見つける精度が高くなっていくようです。

これって、機械学習にも使えそうですね。(既に使われているようです)

また、生化学反応のモデルの構築、構造解析などなど、事前の情報が分かっていることで次のパターンを推測するのに使えるようです。

いわゆるシミュレーションをするケースで活躍の場がありそうです。


Wikipediaなどにも例題が出ていたので、もう少し勉強する必要があるかなと思いました。

30分の勉強ではこれが限界...


それでは、また!


いいなと思ったら応援しよう!

eiko_programming
最後までお読みいただきありがとうございます。よろしければ「スキ」していただけると嬉しいです。 いただいたサポートはNGS解析をするための個人用Macを買うのに使いたいと思います。これからもRの勉強過程やワーママ研究者目線のリアルな現実を発信していきます。