![見出し画像](https://assets.st-note.com/production/uploads/images/174135479/rectangle_large_type_2_d9cb8dea0d7ae9541c8a9a53bfe49006.png?width=1200)
『ダメな統計学 : 悲惨なほど完全なる手引書』という本を読んだ話
はじめに
タイトルにもあるように、『ダメな統計学 : 悲惨なほど完全なる手引書』(アレックス・ラインハート著/西原史暁訳)という本を読んだので、共有の意味も込めて、一部抜粋して紹介できたらと思います。(本の内容以外に統計に関する基礎的な話も多分に含みます。)
p値とは
重要な概念「p値」
この本では、研究や論文で日常的に犯されている統計に関する誤りをセクションに分けて解説しています。特に検定に関する話が多いのですが、そこで頻出するのが「p値」です。実際、学会発表や論文などでも、「p値が0.05を下回ったので、統計的に有意である」といった主張をよく目にすると思います。
「それならp値って何?」という話だと思うんですが、統計の授業を受けたことがあるのなら、おそらく解説されていると思います。ですが、私自身「検定において、結果が統計的に有意であるか、そうでないかの判定に使う閾値」くらいの認識だったので、どのようなものか簡単にまとめたいと思います。
p値って何?
p値とは、今回取り上げている本に即して言いますと「真の効果あるいは真の違いがないという仮定のもとで、実際に観測したものと同じぐらいかさらに極端な違いを見せるデータが得られる確率」のことです。
例えば、「コインを10回投げ、そのすべてで表が出た」とします。このとき、投げたコインが何の変哲もないただのコイン(両面が同じ確率で出る)だとしたときに、このような結果が偶然に得られる確率がp値です。
普通のコインだとすると、このような結果が得られる確率は$${\Big(\frac{1}{2}\Big)^{10}}$$ですから、p値は約0.001とかなり低くなります。
つまりp値は「驚きの測度」と考えることができます。値が小さいほど、普通であればめったに起こらないことが起こり(驚きの測度が大きい)、値が大きいほど、起こるべくして起きた(驚きの測度が小さい)というわけです。
検定で使っていけ
先ほどの例を見ると、「10回投げて全部表なんてありえない、インチキだ」と多くの人が考えるでしょう。インチキを暴きたい、そんなとき使えるのが統計的仮説検定です。検定は以下のような手順で行います。
主張したいような仮説(対立仮説)を立てる
それとは逆の仮説(帰無仮説)を立てる
帰無仮説が正しいとしたときの検定統計量の分布を考える
分布をもとに、調査結果に対するp値を計算する
p値があらかじめ設定しておいた有意水準(一般的に0.05)を下回れば、帰無仮説を棄却して、対立仮説を採択
逆の仮説というのがどのようなものになるのかイメージしづらいと思いますので、先ほどの例に即して考えてみることにします。
「このコインはインチキだ」という仮説を立てる
その逆である「このコインは両面とも均等に出る、普通のコインだ」という仮説を立てる
表が出た回数の平均の分布を考える
p値は0.001
p値が0.05を下回ったので、このコインは普通のコインではなく、インチキコイン!
手順を見てもわかる通り、p値は検定における重要な概念です。つまり、「普通なら起こらないようなことが起こった!!(p値が小さい、驚きの測度が大きい)…ということは普通じゃないな」ってことです。
p値の罠
さて、ここまでp値がどのようなものかについて述べてきました。ここからは、そのp値について犯しやすい誤りについて論じていきたいと思います。
p値とは「驚きの測度」
上では、p値とは「真の効果あるいは真の違いがないという仮定のもとで、実際に観測したものと同じぐらいかさらに極端な違いを見せるデータが得られる確率」であり、「驚きの測度」と述べました。この通りです。p値とはそれ以上でもそれ以下でもありません。
p値が注目しているのは、対立仮説ではなく帰無仮説であり、効果や違いの大きさについては何も言及していません。p値が非常に小さな値をとると、効果量が大きいように錯覚しますが、そういうわけではありません。例えばp値が0.001という値をとったとしても、単にめったに起こりにくいことが起きたというだけであり、「99.9%の確率で対立仮説が正しい」みたいに考えることはできません。
もしかして:サンプルサイズが小さい
上記の通り、p値から読み取れることは非常に少ないです。サンプルサイズやそれが与える影響についても、p値からは何もわかりません。影響は多分に受けますが、「サンプルが不足しているのではないか、それならどのくらい増やせばいいのか」といった考察には全く寄与しません。
検定力とその不足
検定力とは、「単なる偶然といくらか大きさのある効果を区別できる確率」を表しています。
![](https://assets.st-note.com/img/1739327210-z8a1Xkg25ZroHJpcL4eut0dW.png?width=1200)
検定力が不足していると、求める効果を十分に検出することができません。一般的に検定力は0.8以上であることが好ましいとされています。
この検定力は先ほど述べたサンプルサイズの影響を多分に受けます。サンプルサイズが大きくなるにつれて、それぞれの分布の分散は小さくなっていくので、つまり上の図でいうと分布が細長くとがっていくので、検定力は大きくなっていきます。
先ほどまでの議論と合わせると、p値が有意水準を下回っていたとしても、
実際に統計的に有意な差がある
十分な検定力があるが、帰無分布5%を引き当てた
サンプルサイズが小さく検定力が足りていないが、帰無分布5%を引き当てた
p値からは、上記のようなことは全く読み取ることができません。
備考
検定力についてネットで調べていると、「検定力は基本的に0.8に設定するべきであり、高すぎるのは良くない」と書いてあります。というのも高くすれば高くするほど微妙な差異が検出されてしまうからとのことです。
別に極めて小さな差異であったとしても、あとからそれが意図するだけの効果量かどうかを論じればいいと思ったんですけど、そういうわけでもないんでしょうかね?ちょっとわかりません。
正義のヒーロー「信頼区間」
ここまでくると、p値が何か悪者のような気がしてきます。そんな悪者を倒す正義のヒーローが信頼区間です。これは効果量などの情報を一切もたらさないp値に比べて、ずっと多くの情報を与えてくれます。
信頼区間って何?
信頼区間とは、「点推定に不確かさを加えたもの」です。例えば、新しい実験的な薬が風邪の症状が続く期間を平均して36時間減らすと述べたうえで、95%(確信度)信頼区間は24~48時間ということができます。これは100回同じようにデータを集めれば、95回母平均がその区間に存在するということです。
効果量の提供
上で述べた通り、信頼区間はp値に比べて多くの情報を与えてくれます。
まずは、効果量についてです。p値は帰無仮説に注目しているため、たとえ統計的に有意であったしても、p値からその効果量についての情報は全く読み取ることができません。
しかしながら、信頼区間を用いることによって効果量を得ることができます。さらに、信頼区間にゼロを含むかを見ることによって、結果が有意であるかそうでないか判定を行うことができます。
幅から読み取れ
次は、サンプルサイズについてです。p値からサンプルサイズについての情報を読み取ることはできません。
では信頼区間はどうでしょうか。信頼区間は、その幅をもってサンプルサイズの不足を教えてくれます。サンプルサイズが増えるほど、推定結果はより精密に、つまり信頼区間の幅が狭くなっていきます。この信頼区間の幅が意図しているほど狭くなるまで、サンプルを増やせばよいわけです。
この本では、これらの利点から信頼区間を使えるのであれば使っていくことを推奨しているようです。
基準率の誤り
ここでは統計分析において、考慮すべき重要な概念である「基準率」とそれに関する誤りについて述べていきます。
基準率って何?
基準率とは、「調査対象となっているもののうち、真に有効なものの割合」のことです。例えば、ガンに対する新薬を100種類試験するとしたときに、本当にガンに効く薬が10種類しかなかった場合、基準率は10%となります。
基準率を考えよう
では、なぜ基準率を考慮しなければいけないのでしょうか。先ほどの例に関して、有意水準を0.05、検定力を0.8とします。このとき、真に有効な薬10個中8個を検出することができ、そうでない薬90個中5種類(4.5種類)を誤検出します。つまり、有意である判定された薬13種類のうち5種類が偽陽性である(偽発見率が38%)ということです。
基準率を考慮しなければ、p < 0.05という結果からあたかも偽発見率が5%であるかのように錯覚しますが(基準率が1であったとしてもこれは誤り)、実際は38%も効果のない薬が混ざっているわけです。
すればするほど間違える
基準率を考慮しなかった場合、独立した検定を繰り返せば繰り返すだけ偽陽性の起こる確率が上昇していきます。
例えば、ゼリービーンズがニキビを引き起こすかどうかを、種類ごとに検定することによって調べることを考えます。ここで、基準率を全く考慮せず、それぞれの検定を独立して行うと、検定を行えば行うほど少なくとも1種類が偽陽性となる確率は上昇します。ゼリービーンズがニキビとは全く関係がないとすると、その確率は以下のように表すことができます。$${n}$$は比較回数を表しています。
$$
P(偽陽性)= 1 - (1 - 0.05) ^ {n}
$$
これを克服するための簡単な手法として、ボンフェローニ法というものがあります。これは、有意水準を$${0.05 / n}$$にするというものです。これにより、比較を行えば行うほどに有意であると判定される閾値は厳しくなっていきます。
ただ、単にそれぞれの効果がゼロであるか判断するためにこういった労力を使うよりも、信頼区間を用いて効果量を推定することのほうがずっと有意義で面白いかもしれませんけどね。
今すぐできそうなこと
本の中では、ここまで述べてきたこと以外にも多くのことについて言及されていましたが、最後にここでは、今すぐにでも実行できることについてまとめていこうと思います。
統計ツールを使おう
自身で式などを書いて統計分析を行うと、ここまで述べてきた統計に関する誤り以外にも単純なミスが発生する可能性があります。こういった単純なミスや一部の統計的誤りを統計ツールを使うことでスキップすることができます。
確かに自身で手を動かして、統計についての知識を深めることは重要です。ですが、便利なものはドンドン使っていきましょう!
研究記録やソースコードを残そう
研究論文においてやはり重要なのは再現可能性です。研究記録やソースコード、データをまったく残しておらず、他の研究者が論文を読んで追実験を行うことができなければ、そこに統計的な誤りが潜んでいたとしても周りからは全く分かりません。
だからと言って隠すのではなく、Githubで公開していきましょう!そしてオープンに議論を行い、自身の研究の完成度を高めていきましょう!
終わりに
今回は『ダメな統計学 : 悲惨なほど完全なる手引書』という本の内容を一部抜粋し、簡単にまとめました。具体的な事例を交えて統計に関する誤りを指摘していたので、非常に読みやすくて面白かったです。
ただ私自身あまり統計に明るくないので、そこらへん、特に検定の知識があれば、もっと理解が深まったかなと思います。最後の方に「学生が根本的に統計について誤解しているのならば、本書のようなものを学生に課題として読ませてもあまり役に立たないのは明らかだ。」みたいに書いてあって、ドキッとしましたね。今回まとめた中に誤解が入り込んでいないことを願います。
おまけ
本の中で「シンプソンのパラドックス」というものが紹介されていました。私自身全く聞いたこともなかったのですが、Wikipediaのgifがものすごくわかりやすかったので共有しておきます。