クロス集計表に悩む
臨床データをとっていくと・・・Aグループ→効果あり、Bグループ→効果なしなんてデータが出てきます。薬剤の効果なんかありますよね。こういうのは表になると
要素 | A | B | 計
効果○ | a | b | a+b
効果☓ | c | d | c+d
計 | a+c | b+d | a+b+c+d
AとBが関係あるのかどうかというのは要素の独立とかベイズの定理とかいろいろあるんですがこういう結果の検定はχ2(カイ二乗)検定が多いと思います。エクセルなんかでもできますし、もちろんRでもできます。ただ、論文に書くときにエクセル・・・と書くとNGが出ます。SPSSとかなら文句ないのですがエクセルは計算ミスすることもあるので信頼性が低いのです・・・。RはOKです。Pythonとかは寡聞にして知りません。
x = matrix(c(a,b,c,d), ncol = 2, bylow = T) ←上のような表を作ってます
chisq.test(x) ←検定をしています
と、これでHappy Endならよいのですが・・・χ2検定じゃだめよとエラーが出たりします。だいたい数が少ないときなのですがそのときはFisherの直接確率検定をします。正確確率で出てくることが多いですがそんなに正確かなぁ?と思うので直接にしていますが英語だとFisher's Exact testです(汗)
fisher.test(x) ←フィッシャーの直接確率検定
こうするだけです。
厳密には分布がどうとかいろいろあるのですがそこは統計家の皆様にがんばってやさしくまとめていただきたいです。
ちなみにこの計算はEZRを使うと簡単にできます。