「統計的に有意である」に頼りすぎていませんか?
研究者として日頃、データを出したり、論文を読んでいる時に必ずと言っていいほど出てくる言葉「統計的に有意である」。
この「統計的に有意である」は本当に、真実を表しているものなのでしょうか?
研究者がデータから何かを言いたい時には必ず統計処理を行なって「統計的に有意であるかどうか」を検討します。
世界中の多くの研究者は「帰無仮説検定」を行い、p値を算出して、pが0.05よりも大きかったら「有意差なし」、0.05よりも小さかったら「有意差あり」と判断します。
何か薬を投与して、pの値が0.05よりも小さければ論文発表に近づくし、0.05よりも大きかったらその薬に関する論文は諦めなければなりません。
研究者たちはpの値を0.05よりも小さくなるように必死になりすぎているのでは?p値に頼りすぎているのでは?と警鐘を鳴らす人たちがいます。
2020年3月号の日経サイエンスに『「統計的に有意」を問い直す』という特集が組まれました。簡単にその内容に触れつつ、今の科学の世界で問題になっている「統計処理」について考えてみようと思います。
—————
◇ 「統計的に有意」は100年前に生まれた
1925年、イギリスの遺伝学者であり統計学者のフィッシャーは『研究者のための統計的手法』という本を出版します。
その中で、データから結論を導き引き続き追求するのに値するかどうかを決める手頃な指標として”p値”が良いのでは無いかということが書かれています。
pが0.05よりも大きい場合は追求するに値せず、0.05よりも小さい場合は「統計的に有意」なのでさらに詳しく調べましょう。と。これが「統計的に有意」の誕生です。
それから100年ほど経った現在でも、幅広い研究分野で「pが0.05よりも小さいこと」は実験の価値を示す黄金律となっています。
◇「統計的に有意」であることにこだわりすぎた結果
研究者たちがこの「pが0.05よりも小さいかどうか」に執着するあまり、意識的に・無意識的にp値を操作して記述することがよくある。
研究者がどのようにデータを集めて、解析して、どう提示するか?が科学的に意味があるかどうかが重要なのですが...
この結果、多くの科学論文で「再現不能」という大変な事態が起こってしまったのです。
2015年に著名な社会科学論文100本について再現性を確かめた調査では、明確に再現できた研究はわずか36.1%だったそうです。
こんな大変な事態になっている現実を目の前にした研究者たちは、「統計的有意性」の再定義や廃止を求めるようになっています。
◇ 解決策はあるのか?
様々な研究者たちが、解決策を提示しています。
例えば、
・統計的手法・解析方法を明確に記述する
・言葉遣いに気をつける(無闇に「有意である!」などを言わない)
・新発見の場合は統計的有意性の閾値を0.005に引き下げる
・「ベイズ法」を使う
・「効果量」に注目する
などなど...
最近ではpの値なしで「信頼区間」を書くだけのデータが増えてきたり、雑誌側が統計解析を指定する流れができているようです。
インパクトの高い雑誌で統計についてかなり厳しくなっているのは、「再現不能」の論文が山のように出されていることへの忠告だったのですね。
普通の人は、わかりやすくて、使いやすい、長年使われてきた手法を使いたがるので、すべての論文に関してすぐにp値が0.05未満で「有意である」というのを撤廃するのは難しいかもしれません。
ただ、権威のある雑誌が「その統計処理本当にあっているの?」と警鐘を鳴らすのは大事だと思いました。出したい雑誌で「統計についてちゃんとしているか?」を見られるんだったら、きちんと勉強しますもんね。
研究者が、データ一つ一つの扱いについて問われる時代が来る気がします。しっかり統計の勉強はしておかなければならないなと思いました。
「ベイズ推定」と「信頼区間」についてちょっと勉強しなければです。
それでは、また!