見出し画像

何度もサンプル調査したら有意差が出るに決まっている。そんなことを売りにしてどうする。

Photo by Crawford Jolly on Unsplash

ちょっとしたシミュレーションをしてみます。

まず、疑似乱数を用いて小規模な母集団を作ります。Excelの「データ分析」から「乱数発生」を選び、期待値4.2、分散1を指定して、正規乱数15000を発生させました。四捨五入して整数にした後、範囲[1, 6]に収まらない数値を削除しました。できた乱数列は、N=14839、平均値4.168、分散1.018となりました。
範囲を[1, 6]としたのは、ある試料について主観的な判断をもとめ、6段階で回答してもらった、のような場面を想定したからです。ヒストグラムはこのようになっています。

疑似乱数による仮想母集団(N=14839)

では、ここからn=20のサンプルを無作為に抽出して、平均値を比べる、ということをしてみましょう。同じ母集団から抽出して比較するのはほとんど意味のない処理なのですが、さしあたり、男女別で比較した、など、2つの属性別に差があるかどうかを比較した、のような想定にしておきます。
当然ですが、1つの母集団から抽出するのですから、2つのサンプルに差が出るのは単なる「偶然」です。その「偶然」がどのくらい起きるものなのかを、シミュレーションしてみようということです。

計算方法は簡単です。さきほど作成した想定母集団が、B列に入れてあります。母集団の範囲におさまるような整数の乱数を RANDBETWEEN 関数で発生させ、B列のその行にあるデータを参照しています。
画像に示した範囲では、1つだけ「2」が出ていますが、そのほかはすべて「4」または「5」という、頻度が高いデータが選ばれています。
こうして20件ずつ、Cnt(統制群)とExp(実験群)を抽出して、平均値、および、等分散を仮定しないt検定(Welch検定)のp値を算出します。

乱数によるサンプリング
等分散を仮定しないt検定のp値算出

ここで算出された2つの群の平均値と、t検定のp値のみを、別のセルに値貼り付けして、記録しておきます。再計算すると(というか、コピー・貼り付け処理のタイミングで自動的に再計算されると)、新しいデータが抽出されて統計量が算出されるので、また記録します。
このようにして40回分記録したのが次の表です。

サンプル抽出40回の記録

グラフにすると次のようになります。

2つの群の平均値とp値の変化

水色とオレンジ色の細い線が、2つの群の平均値の変化です。おおむね4~4.5の間に収まっていますが、ところどころ4を下回ったり、4.5を上回ったりしています。また、抽出によっては水色(Ctl群)のほうが平均値が高かったり、オレンジ色(Exp群)のほうが平均値が高かったりしています。そして、2つの群の平均値差が大きい時に、p値が下がっています。当然ですね。

p値のグラフ(グレー)を見ると、ほとんど0に近い値から、ほとんど1に近い値まで、かなり大きな振れ幅を持っていることが分かります。表を見ていくと、p値が一般的な有意水準である0.05を下回っているのは4回で、これは40回の抽出のうち1割にあたります。やや、出過ぎている感じがありますね。

p値が0.05を下回った例として、19回目の抽出の様子を記録しておきました。たしかに、Ctl群<Exp群のようになっている感じはしますが、これでp=0.02と言われても、普通はピンとこないと思います。
ここでシミュレーションしているデータは、何の意味もない数字の羅列ですが、そこから乱数を使ってn=20のデータを抽出し、t検定(何の意味もない数字の羅列を検定しますから、検定そのものにも何の意味もありません)を行うと、それなりの確率で、p<0.05の結果が得られます。
このように、検定の結果、p値が0.05を下回ったときに、「有意差が出た」というような言い方をします。Ctl群の平均は3.75だったが、Exp群の平均は4.5であり、この差は有意であった(t(38)=2.41, p=0.02)、と主張できることになります。ほんとですか?

「有意差」の例

Ctl群とExp群については、さまざまな設定が可能です。
前者にはこれまでの飲料を、後者には新しく開発した飲料を飲んでもらい、そのおいしさを6段階で評価してもらった、という設定で上記の結果が出たなら、「新しく開発した飲料はこれまでの飲料よりおいしい!」と主張できます。
前者には他者の菓子を、後者には自社の菓子を食べてもらい、その食感のよさを6段階で評価してもらった、という設定なら、「当社の菓子は他者のものより食感がいいと評価されました!」となります。以下同様。

さて、思い出してください。
上のシミュレーションでは、40回のうち4回で有意差が出ていますが、もともと、同じ母集団から抽出したデータどうしを比較していますから、本来、有意差なんか出るはずがないのです。
え? どういうこと? どういうことでしょう。
簡単です。統計検定と言うのは、これくらいの確率(今回は少々高すぎますが)で、間違えるのです。さきほど、「一般的な有意水準である0.05」と書きました。0.05というのは5%ですが、誰が統計検定をやっても、5%は間違えるということです。何度も同じことをすれば、いつかは間違えるはずなので、その「間違えた」結果だけを出してきて、「有意差が出ました!」と報告してもよいのでしょうか。

ちょっとだけ統計を勉強した素人が知っている現場からは以上です。
より詳しい情報は、専門の方々がより正確に意見を述べておられると思いますので、そちらを参照してください。