Welchのt検定とBrunner-Munzel検定を使う

 ずっと悩ましかったWelchのt検定とBrunner-Munzel検定をどう使うか自分なりにこうかな?と自分に言い聞かせてみたので書いてみました。まだまだ釈然としない部分があるので結論も書き直すかもしれません。
 どちらも数値データの比較なのですが、割と特徴があるみたいです。
 まず、Studentのt検定というのがあるのですが、これは条件に合う限定盤の集団を見つけてきて当てはまったら効果的な検定となっています。そのかわり条件に合わないと検定結果が信用ならないというどこかでみたような縛りがあります(冨樫先生続きはいつですか・・・)。2群の標本サイズが等しいか不偏分散が等しいサンプルを探すのです・・・。でもWelchのt検定はサンプルをある程度集めて中心極限定理で正規分布に近似されれば良いのです。小サンプルの時は悩ましい。

 Welchのt検定もBrunner-Munzel検定も中心極限定理による正規分布への近似・・・だそうです。いずれもt分布とか何かの補正を経て頑健性を保っているようです。何を使えばいつでもOKというものはなく、母集団の性質から検定を選ぶというところは変わりません。無駄なp値を追求しても真実にはたどり着かないのですから。
 そして両者の違いというとBrunner-Munzel検定は無作為に取ってきたデータを比較して大きいか小さいかなどの⚪︎×の要素のみ残して勝率を計算するため、多分我々がよく扱う問題で90歳vs40歳と90歳vs87歳を同じようなものとして扱ってしまうのかな?と感じています。年齢や用量など数値の大きさや平均値などにも意味があるならWelchのt検定を使った方が良さそうです。

 ここまで書いてみましたが臨床的な推移やアウトカムがどの検定の指標と合ってそうかをしっかり検討しないといけないってことですね。母集団が全く分からないことが多いのでStudentのt検定やMann-WhitneyのU検定は知らずに前提が崩れてしまってそうでちょっと不安を感じます。
 詳細はまだ追えてませんが今のところは小サンプルのときはやむを得ないのでBrunner-Munzelの並び替え検定するしかないのかなぁなんて夢想しています。ところがどっこい、世の中にはWelchの並び替えt検定なるものもあってですね・・・(混乱)。もっというと有意水準は0.005%で良くないかという議論が出てきていて、P=0.005、0.05付近の頑健性はやっぱBrunnerMunzelかWelchの並び替え検定だぜ!という論文なども出ております。

 もう、とりあえず並び替え検定で良くないですか!?(よくない)
 数理モデルや標本集団の特性、効果量などもよく考える必要がありますね。

いいなと思ったら応援しよう!