【統計の勉強】多群比較の手順②〜多群比較が必要な理由
こんにちは。実験データときちんと向き合うために、統計の勉強をしている生命科学系研究者のえいこです。
前回は、多群比較の手始めとしてサンプルデータの作成をしました。
全く、統計の勉強とは関係ありませんでしたね。
今回から、多群比較検定について勉強していきます。
まずは、「多群比較検定の必要性」について理解していきたいと思います。
例えば、A群とB群とC群があって、「A群vsB群」「A群vsC群」「B群vsC群」とそれぞれ二群比較したくなります。
群がたくさんあるんだったら、「二群比較じゃなくて多群比較しましょう」と教科書的に言われています。
でも、なんでダメなのかよくわかりませんよね。
今回はそこのところを勉強して、多群比較の必要性について理解していこうと思います。
この記事で書いているのは、あくまでも私の理解(ざっくり言うとこんな感じ?というとらえ方)なので厳密に正しいと言うわけではありません。きちんと正しい知識をつけたい場合は、専門書を買って読むことをオススメします。
そもそも統計ってどんなことをしているんだっけ?
一番よく見る2群比較を例に統計処理をする時にどんなことを考えているのか、振り返ってみます。
よく使われるのは統計的仮説検定で、まず統計的な仮説を立てて仮説が成り立つ確率を推定し採択・棄却を決めていきます。
A群とB群を比較するときに、「A群とB群で差がない」という仮説を立てます。(帰無仮説と言われ、本来主張したいことと逆の仮説です。H0と表されます。)
検定の手順は、「帰無仮説が正しい」と仮定して実際に得られた数値を当てはめていきます。
統計の教科書とかだとこんな感じで正規分布が出てきて、いろいろ話が展開されるんですけど、よくわからなくて結局読み進められないことが多いんです。
だから今回は正規分布のグラフを使わないで、箱を使って概要を把握してみようと思います。(厳密にいうと違ったりするかもしれません。私なりの解釈や理解なので悪しからず...)
まずは、帰無分布という箱を用意しておきます。
その中にAのデータとBのデータを入れていきます。(厳密には統計検定量という値に変換して並べるようですが、詳しい細かい内容は割愛していきます)
AのデータもBのデータも同じ箱に全部入る場合、
(なかなか起こらないことが起こってるんだけど)A群とB群には差がないよねと言えます。
AのデータもBのデータも全く箱に入らない場合、
そもそも仮定している帰無仮説が正しくない!ということは、A群とB群のデータに差があるよねと言えます。
でも、実際のデータってこんな綺麗に100%こうなるってことはありません。
箱に全く入らないということは起こらないかもしれないけど、どれくらいの確率までは許容して違うって言えるか?を決めるのが「有意水準」です。
(いわゆる「第一種の誤り」を犯す確率のことで、帰無仮説が正しいのに棄却してしまうの確率と定義されています)
たいていの場合、5%とか1%に設定されることが多いようです。
有意水準5%というのは、
20回実験をやって19回は帰無分布にはいらないんだけど、1回くらいは帰無分布にデータが入っちゃうんだよね。だけど差があるって判断しちゃう。
と言うこと。
じゃぁよく耳にする「p値」と言うのはどう言うものかと言うと、帰無分布にデータが入る確率のことです。(実際のデータから求められます)
「p値<有意水準」となった時に、帰無仮説は棄却されて、対立仮説(本来主張したかったこと)を採用します。
ここで重要なのは、数学みたいにA=BとかA≠Bが100%成り立つわけではないと言うこと。
t検定で有意水準5%で帰無仮説が棄却されたとします。その意味は、
A≠Bが95%以上の確率で成り立ちます
と言うことなのです。(ざっくり言うと)
さて、統計処理でどんなことをしているのかざっくり概要はつかめました。
繰り返しになりますが、統計処理というのは確率論で数学みたいに100%成り立つというわけではないフワフワしたものなのです。
察しの良い人はわかってきたかもしれませんが、多群比較がどうして必要なのかもう一度考えてみましょう。
多群比較はどうして必要なの?
A群、B群、C群を比較しようとしたときの、
対立仮説はA群、B群、C群のデータに差がある
帰無仮説は、A群=B群=C群
となります。
数学的には、A群≠B群もしくは、B群≠C群、C群≠A群のいずれかを言えれば、帰無仮説は棄却できます。
とりあえずは、3つのパターンについて二群検定してみることを考えましょう。
有意水準5%で検定するとします。
A群≠B群と言えるのは95%の確率
B群≠C群と言えるのは95%の確率
C群≠A群と言えるのは95%の確率
3つ同時に比較しているので確率計算は掛け算になりますね。
(サイコロを3回振ったのと同じです)
0.95×0.95×0.95= 0.857..となって、まぁ正しいでしょうという確率は約86%まで下がってしまいます。
ということは、間違いを許容している確率(要は有意水準)は、(100%-86%)なので14%くらい。
最初に設定した有意水準は5%くらいなので、3倍くらい間違っている可能性が高くなってしまっています。
3群の比較なので、群がもっと増えたら0.95の掛け算が組み合わせの数だけ増えていくのは直感的にわかるかとは思います。ということは、正しいと判断できる確率が下がって、間違いを許容してしまう確率はどんどん上がっていくということになります。
差が出やすいのは当然ですね。(差が無いのに差があるという第一種の誤りを犯す確率が上がっているということですもんね)
ここまでをまとめると、
2群比較で検定していると、群が増えていくにつれて間違いを許容する確率(有意水準)がどんどん高くなってしまう
統計は確率論で100%正しいという前提の話ではないために、このようなことが起こってしまいます。
この増えていく有意水準を補正して5%に保つための計算方法が多群比較です。
よく多群比較をすると差が出にくくなると言われるのですが、それは有意水準を5%に保つために補正しているからなんですね。
これからは、多群比較を使う理由をしっかり把握しながら使っていけそうです。
それでは、また!
〜この記事を書くにあたって参考にした資料〜
池田郁男,統計検定を理解せずに使っている人へⅢ,生物と化学,(51) 7, 2013
山田剛史,杉澤武俊,村井潤一郎,「Rによるやさしい統計学」オーム出版