統計的仮説検定を端折って説明するのは無理がある
何故、仮説検定やP値の議論は燃えるのか
※ここでは統計的仮説検定の詳しい解説はしません。100%正確に伝えられる自信がないです。数学科の講義資料や数学者が出している統計の本には比較的良い解説が載っていますのでそちらを参照ください。
統計的仮説検定はどの統計本にも載っているような手法で、科学の分野ではよく使われています。その一方で、その手続きや解釈は大変わかりづらく、世の中の使用例には誤用が多く見られます。
そのような統計的仮説検定をわかりやすく説明するのを試みた結果、色んな方から指摘されてしまうのをX(旧Twitter)で観測しました。(このくだり、年に数回は見かけるので風物詩ですねw。)
では、ポストした方はちゃんと統計的仮説検定を理解できていないかというとそうではないと思いました(むしろ勇気があって尊敬します)。ここでの問題は、統計的仮説検定はどうあがいてもわかりやすくならないということです。これは、数学特有の理論構築、哲学的な思想、複雑化されたフレームワークなどが原因にあります。数式を語るには仮定が必要で、哲学を語るには歴史を知る必要があり、フレームワークを語るにはその操作を一つ一つ丁寧に追っていく必要があります。Xの文字数ではどうあがいても足りないと思います。
なので、短い文章で統計的仮説検定を説明しようとした結果、ニュアンスや意味等々で揺らぎが生まれて、統計的仮説検定ではないナニカが生まれてしまうのです。この辺りはもうしょうがないので、自分でしっかり勉強して理解に努めていくしかないと思います。
それでも統計的仮説検定が好まれる理由
興味がない話題には火は寄ってこないので、度々議論が活発になるこの話題は現代において非常に必要とされていることが分かります。その理由は統計的仮説検定によって得られるP値によって簡単に客観的な意思決定を促す(ように思える)ことができるからです。
仮説検定では、「得られたデータに差があるかどうか」をP値一つで判断(のように思える)します。昨今の科学計算可能なプログラミング言語ではP値を関数一つで計算できるのでお手軽に判断材料を手に入れることができます。
解釈も、P値を有意水準を超えるか超えないかだけを見て、「有意に差がある」と「有意に差があるとは言えない」を考えるだけ(のように思える)です。
確かに、ここまで楽に判断できるのであれば、洗濯機が発明されて生活が一変したレベルで科学界に衝撃を与えたと思います。それによって、現在までスタンダードな手法として使われ続けているということです。洗濯機と違うのは、操作が難解すぎてほとんどの人が正しく扱えないことだと思います。
では、P値に対してどのような感情・期待を持てばよいかというのはASA声明に詳しく書いてあります。統計を扱う人にとっては一読の価値があります。
ASA声明原文:https://www.tandfonline.com/doi/full/10.1080/00031305.2016.1154108
翻訳してくださったもの:https://www.biometrics.gr.jp/news/all/ASA
先人の知恵を利用するのであれば、しっかり理解した状態で使っていきたいです。特に、統計的仮説検定は客観的指標が簡単に得られますが、その背景には膨大な仮定や思想が詰まっています。それをたった一言で表現しようするのは無理筋なのです。
おまけ
統計的仮説検定の体系的な理解にはシミュレーションが役に立ちます。根本的には頻度を扱う問題なので、一つのP値で挙動を理解することは困難を極めます。プログラミングに自信がある人はやってみてください、自信がない人は偶然私が作ったやつがあるのでそれを動かしてみてください。
理論的な話から、実務的な用途までキチンと理解したい方は長崎大学病院の佐藤先生のスライドを読み込みましょう。