統計的仮説検定の秘められたお気持ちを探る（その①：モーダストレンスとポパーの反証主義）

2020年11月14日 14:45

更新履歴

・ver1を執筆＆公開（2020年11月14日）
・ver2に更新＆公開（2020年11月15日）
➡ 仮説検定の記述を修正＆ポパーの反証主義に関する記述を修正・追記
➡ 野心的過ぎたタイトルを変更（お気持ち理解は遥か遠い…）

要旨（Abstract）

・統計的仮説検定は、モーダストレンス（後件否定）という推論形式の一種だと理解すると分かりやすい（ポパーの反証主義とも類似点がある）

・統計的仮説検定には、歴史的に ①フィッシャーの有意性検定　②ネイマン・ピアソンの仮説検定 ③現代の標準的な仮説検定（修正ネイマン・ピアソンの仮説検定？）の3種類が少なくとも存在する
　※長くなりましたので、こちらは「その②」の記事で説明予定です

導入（Introduction）

統計学を勉強したことがある方ならば、恐らく誰もが「統計的仮説検定」というワードを聞かれたことがあるかと思います。これは現代の科学的研究の中で非常に重要な位置を占めていますが、一方で、その背景にあるロジックや発展の歴史については、入門的な統計学の教科書では必ずしも深く掘り下げられていないため、初学者の混乱が生じているという認識です。

ある理論や手法について、その背景思想や歴史的経緯と独立して習得することができる、というのが自然科学のよい所なのだと思っているけど、こと統計的仮説検定に関しては、それらを削ぎ落とした結果、初学者にはワケが分からないことになってしまっているような気がしてならない。
— くまだ総研（久萬田巌） (@qumaiwao) November 5, 2020

↑ いかにも分かってるやつ感を出してますが本人も分かってません

本記事は、それらに関して同じく統計初学者である筆者（くまだ）が色々と苦戦しながら集めた情報を共有することを目的としています。この記事が少しでも、筆者と同じように仮説検定について一応学んだけど、いまいちピンと来ないという方の助けになれば幸いです。
（筆者は完全な素人なので、誤りなどのご指摘もお待ちしています）

※統計的仮説検定にはベイズ流の仮説検定も存在しますが、今回の記事内では全て「仮説検定」という言葉は頻度論的な仮説検定とイコールの意味で使っています（話がややこしくなるのと、筆者がベイズに詳しくないため）

統計的仮説検定の標準的手続き

さて、（現代的な）統計的仮説検定とはそもそもどういう手続きか、という説明ですが、これは以下の統計コンサルさん（@ynakahashi1003）のブログ記事が非常に分かりやすいと感じます。

上記記事で統計コンサルさんが述べられているプロセスについて、自身の方で一部まとめ・追記させて頂いて書き下すと、以下のようになります。

Step1：検証したい帰無仮説（H0）と対立仮説（H1）を立てる
Step2：ジャッジの基準となる検定統計量と有意水準を決める
Step3：実験などをしてデータを取得し検定統計量を計算する
Step4：帰無仮説（H0）が正しいと仮定した際に、手元のデータ（から計算した検定統計量の値）が偶然得られる確率を計算する
Step5： Step4で計算した確率をStep2で定めた有意水準と比較し、各仮説を支持するかジャッジする（一般に、以下の通り判断するのがスタンダート）
　パターン１：計算した確率が有意水準以下の場合
　　➡ 帰無仮説を「棄却」し、対立仮説を「採択」する
　パターン２：計算した確率が有意水準を上回る場合
　　➡ 対立仮説を「棄却」する（※帰無仮説を「採択」はしないお作法）

一般に対立仮説に分析者が期待する仮説（例：グループAとグループBでテストの平均点に差がある）を設定し、帰無仮説を棄却する（上記のパターン１）ことで論証を行う、というのが標準的な流れになっています。

ここで私を含む初学者が疑問に思うのが、恐らく以下の2点だと思います。
1) そもそも何でこんな遠回りな方法で論証するのか？
2) 帰無仮説はなぜ採択できない（とされている）のか？

本記事では上記の2点に対する回答のひとつとして、仮説検定の背後に隠されているロジックや、理論の歴史的発展を整理できればと思っています。

仮説検定の背後に隠されているロジック

上記で見たような仮説検定のロジックはよく「背理法的」と言われますが、実は「モーダストレンス」というカッコいい名前の論証方法を拡張したものとして理解することが出来ます。（大久保・岡田「伝えるための心理統計」および、エリオット・ソーバー「科学と証拠」にも記載があります）

これは「後件否定」とも呼ばれ、上記のWikipediaのページには以下のような論証であると記載されています。

＜モーダストレンスのロジック＞
　P ならば Q である。
　Q は偽である。
　従って、P は偽である。

字面だけ見ると理解しにくいのですが、具体例だと分かりやすいです。
※以下の例は大久保・岡田「伝えるための心理統計」より引用＆一部改変

＜モーダストレンスの具体例＞
昨晩に雨が降ったならば、今朝は家の前の地面が濡れている。
今朝は地面が濡れていない。
従って昨晩は雨が降らなかった。

このように、Pから論理的に導かれるQに対する真偽をジャッジすることで、大元のPの真偽をジャッジしようというのが基本的なアイデアです。
ちなみに上記例ですと「地面が濡れていた」からと言って「雨が降った」とは言えない（例：早起きしたオカンが朝に水撒きをした可能性もある）ため、一般に「Qが真ならばPは真」は成り立たないこともわかると思います。

さて、仮説検定をこのモーダス・トレンスの枠組みで考えると、以下のようになります。【11/15：フランスのポスドクの方（Ladislas Nalborczykさん）が書かれた以下の記事を見つけたので、参考にして記載を修正しました】

＜モーダストレンスから見た仮説検定（*1）＞
帰無仮説が正しいならば【P】、データから計算された検定統計量Tは基準値Xを超えない（超える可能性は低い）【Q】
得られたデータから検定統計量Tを計算した結果、基準値Xを超えている
従って、帰無仮説は正しくない（正しい可能性は非常に低い）

上記のように考えると、「帰無仮説が採択できない」理由が何となく理解しやすいのではないかと思います。一般にモーダストレンスの論証の枠組みでは、「Qが真ならばPは真」は成り立たないからです。（*2）

*1：実はこれは厳密には「確率論的モーダストレンス」という通常のモーダストレンスを拡張した推論方式となります。（仮説検定はどこまで行っても確率的な論証を行っているため）実は科学哲学的には確率論的MTはそもそも論理的に妥当な論証とは言えないという超絶に頭の痛い問題があるのですが（つまり統計的仮説検定自体が論理的に問題がある）筆者の力量を超えることもあり、ここではその話は華麗にスルーしています。
※この辺りの議論はエリオット・ソーバー「科学と証拠」§4 に詳しいです。

*2：この辺り、本当は仮説検証理論の発展の歴史や「採択」という言葉の定義など絡んでくるのでもっとややこしいのですが、長くなりますのでこれは次の記事（その②）でお話しできればと思います。

ポパーの反証主義と仮説検定の類似点

さて、仮説検定がややこしい論証形式になっている理由としては、上記のような背景のロジックが基本全てなのですが、実はこうしたモーダス・トレンスによる論証は、統計的仮説検定特有のものではありません。実は仮説検定理論と同時期～やや遅れて発達した、カール・ポパーの反証主義も同様のロジックを基にしています（*3）

カール・ポパーとは、20世紀を代表する科学哲学者のひとりです。彼の主著である「科学的発見の論理」（1934年）及び、彼が展開した「反証主義」の考え方は、現代の科学的方法論にも大きな影響を与えています。

彼の反証主義の考え方は、ざっくり言うと「ある科学的命題に対する反証を発見することで、その命題の真偽を判断する」というものです。（*4）
これを例を挙げて説明すると、以下のようになります。
※以下はチャルマーズ「科学論の展開」第5章から引用＆一部改変

（命題）すべてのカラスは黒い
（反証）黒くないカラスが場所Xで時刻Tに観察された
（結論）すべてのカラスが黒いわけでは無い

例をご覧になって分かるように、これは明らかにモーダス・トレンスです。（*5）科学的方法論という大きな枠組みから見れば、統計的仮説検定は必ずしも奇妙な存在であるとは実は言えないのだと思います。

【11/15 追記】
アメリカで統計学の研究者をされているMcAlinn先生から本記事に関し、以下のようなコメントを頂きました（ありがとうございます…！）

ポパーの反証主義とNHSTの親和性は高いのだけれど、反証主義は自分の仮説を反証するのに対してNHSTは帰無仮説を反証するのが混乱する要因なんですよね。多くの場合この帰無仮説はsharp nullといって藁人形みたいな仮説なので、それ自体は自分の仮説を検証していない。 https://t.co/n41RdxYHxJ
— Ken McAlinn (@kenmcalinn) November 14, 2020

上記のtweetでも言及されていますが、統計的仮説検定では研究者は自身が想定する仮説を通常対立仮説に置く（このため、帰無仮説は "sharp null" や "straw-man null hypothesis”としばしば呼ばれるようです）のに対し、ポパーの反証テストでは、仮説を直接反証しようとするという大きな違いがあります。現在心理学分野を中心に、こうしたトラディショナルな統計的仮説検定ではなくベイズ流の仮説検定を押す動きの背景には、実はこうした反証主義との整合性を取りたいとの研究者たちの思いもあるのかも知れません。

➡その②へ続く！

*3：【11/15修正】この辺りの歴史的な関係が気になって調べているのですが、どうやらポパーからフィッシャーやネイマンに対する思想的影響（あるいはその逆）を示す史料は恐らく無いようです（情報を引き続き募集中）

*4：余談ですがWikipediaの「反証主義」「反証可能性」のページはちょっと怪しい記述になっているので、あまりおススメしません（同時代のカルナップの「検証主義」「検証可能性」と一部ごっちゃになっていると思われる）

*5：というより、モーダストレンスという昔からある推論方法自体、ポパーの反証主義の議論で一般化したという話もあるようです（真偽未確認）

参考文献

今回の記事は、以下の参考文献等を参考にして書かれています。なお本記事の内容に何らかの誤りがあった場合は、全て筆者の理解不足に起因します。

専修大学の大久保先生・岡田先生の仮説検定や効果量と言ったシブい話題にフォーカスした専門書です（本記事でも非常に参考にさせて頂いています）

統計の哲学・生物学の哲学を専門とするエリオット・ソーバーの名著。この書籍の仮説検定の箇所が、本記事執筆の動機となりました。正直お値段は張りますが、統計に関わる仕事をされている方はマストバイの一冊です。

科学哲学者チャルマーズによる、科学哲学の教科書です。前提知識などなくとも読めるつくりになっているので、非常におススメです。

この10月に出たばかりの京都大学の大塚先生による統計哲学の本です。ポパーの反証主義と仮説検定の類似性については、筆者は恥ずかしながらこの本を読んで初めて気が付きました。