荒唐無稽な解析結果が得られたとき、どうするか?
解析結果によっては、荒唐無稽なのに統計学的に有意な結果が得られることがあるかも知れません。
一律に荒唐無稽だから捨ててしまうという態度で良いでしょうか。あるいは、統計学的に有意だから荒唐無稽であっても受け入れるべきでしょうか。
それについての一意見として、noteを記載しました。
発端
下記のようにTwitterに頂いた、質問について回答しようと草稿を書いていたら、ちょっと文章量が貯まってしまったので、Twitterで回答するのを諦め、このnoteを作成しました。
まとめると、「県名に『山』が付く県(山形・山梨・富山・和歌山・岡山・山口)を1つのユニットとしてまとめて、解析をしたときに、このユニットでの献血者数が他よりも2500人多かった」ときにどう解釈するか?という質問と理解しました。
3つの視点(つまり、沼)に分けて考えて行きたいと思います。
統計学の役割
1つめの沼として、統計学の役割についてです。
人間の予断を排するのが統計の役割かなと。(ツイートから引用)
前述ツイートの中で、ここが特に気になったので、最初に私の意見とか考えを述べておきます。
統計解析では数学的・統計学的モデルを作るという作業(モデル化)を行っています。宇崎ちゃん献血コラボの例ではSCMというモデル化を行っています。
モデルは、現実世界とは異なる存在で人間が恣意的に作成しています。そのため、人間の予断を排することが出来ません。
人間の予断に基づいたモデル化を行い、「モデルの詳細の構築(計算)」と「モデル内の正しさの評価」と「モデルと現実世界の整合性の評価(かなり高度な技)」あたりが、統計学の役割かと思います。
もちろん、これ以外にもあるかと思いますが、現実世界を計算可能な数学的・統計学的モデルに一旦置き換えるという操作は必須です。この操作が入る以上、人間の予断や恣意性を排除できません。
このような考え方、サンプル(データ)とモデルと現実についての差異等を念頭に置くには、渡辺澄夫先生の資料や本(下記)を読むのが良いと思います。
ということで、一沼目は、こちらの本です。最初の数ページ読むだけで、何か分かった気になれる(分かってはいない)ので、しっかり理解するために読もうとして何度も挫折する本です(本の紹介か…?)。
また、そもそも人間の予断を排さない方が良いと思います。機械学習コンペKaggleでもドメイン知識の重要性はよく言われています。下記初版p.80にも
ドメイン知識の重要性を実感したコンペでした。
との記述があります(二沼目)。
研究の再現性について
2つめとして、研究の再現性についてです。
予想外の荒唐無稽な(言い過ぎでは?)結果に合理性があると考えて良いかどうかは、事前にどのような調査・研究を行うか計画を立てて行ったかどうかによって異なります。
事前に「『山』がつく県について調べよう」と計画立案し、調査を実施したところ、+2500の効果を見つけた(検証的=仮説を検証する)。
取りあえずデータがあるから色々やってみて、「『山』がつく県」に+2500の効果を見つけた(探索的=データを広く見渡して、仮説を形成する)。
上記の2パターンのうち、検証的研究における結果は、信頼区間やp値などで評価し、偶然誤差かどうかを検討します。もちろん、合わせて系統誤差の可能性も検討します。
探索的研究でも、偶然誤差かどうかを検討しますが、検証的研究とは事情が異なります。
例え、p値が低かったとしても、偶然誤差の可能性を排せません。なぜなら、文字通りデータセットを探索するので、何かしら相関関係が見つけることができるからです。
今回の例では、「山付き6県で+2500人」という結果が見つかっています。ところで、47都道府県から6つ選ぶ選び方は、1073万7573個の組み合わせ方があります。
これが探索範囲になりますが、とても広いので、そのうちの1個や2個で+2500が見られても、珍しい出来事ではありません。
対照的に、検証的研究では、事前に「山付き6県」のみという1通りの探索範囲で調査することを決めています。これは「山付き6県では効果が大きいのではないか?という」仮説の検証が目的だからです。ですので、他の6自治体の組み合わせは検討しません。
仮に探索的に1073万7573通りの組み合わせを全部、調べて唯一「山付き6県」で+2500という強い関係に(おそらく偶然)なったのに、これを検証的に「山付き6県という1個の組み合わせを調べたら+2500になった!」と報告すると、どうでしょうか。
報告された側は10737573個から、たった1個が見つかったに過ぎないとは思わないので、「新しい知見がえられた!」と感じ、「山付き6県」に何らかの合理性を見いだすかも知れません。
しかし、それは次の研究では再現されませんので、役に立たない情報でしかありません。
もし、探索的な研究において、「山付き6県で+2500」という結果が見られたとしても、
「山」に何か差を生じさせる《原因》があると考えるべきではないか。(ツイートから引用)
とは言えず、「探索的な研究から得られた結果を用いて、検証的な研究を行って確かめよう!」という結論にすべきであると考えます。
ところで、このような再現性がない事が近年、問題になっています。例えば、教育系で有名なマシュマロテスト(マシュマロのつまみ食いをガマンできる子供は将来、学業や就職で成功する)も再現されていません。
再現性の問題を指摘した下記スライドの9枚目と10枚目には、とても面白い例が挙げられています。9枚目が発表された内容で、10枚目が本当に調査された内容です。
また、探索的に統計解析をすると、意外なものに相関があることが分かります。下記サイトは有名なものです。
一例をあげると、一人当たりのチーズ消費量(赤)とベッドシーツに絡まって死亡した人の数(黒)は強い相関が見られました(相関係数=0.947)。
強い相関係数があるにも関わらず、無関係です。
学会発表とかで「研究の再現性は…」系の質問をすると、沼に入っていけます。いらっしゃいませ。
相関と因果は異なる
3つめとして、相関と因果は異なると言うことです。
上記とも重なるので、簡潔になりますが…
偶然誤差の可能性を排除したとしても、「山」という漢字が県名に入っていることを原因と考えるのは不合理です。
おそらく、漢字とは異なる理由があるはずで、「山」という漢字が原因に見えているのは、ただの相関関係であって因果関係ではありません。
相関と因果は異なる、ということはよく説明されます。しかし、どのように相関と因果は異なり、どうすれば相関と因果を区別できるかについては、多くの日本語のテキストにおいても説明があまりなされていません。難しいからです。しかし、沼は開けています。
まずは、「入門」という日本語の定義にチャレンジした本です。読んでいくと分かりますが、元来持っていた「因果」への理解が浅かったことを教えてくれる本です。
もう1冊は、これから出版するというのに、PDFが著者により無料で公開されている本です。儲ける気はあるのか…。
余談ですが、二冊目の本は、この絵で美少女(「キモオタ、アイドルやるってよ」の主人公)が読んでいる本です。で、かけられている眼鏡が私(錯乱)。
話しを戻して…
検証的研究では、上述の本で記載されている様な方法で、相関から因果を抽出します(しようと試みます)。
その最たる物は、系統誤差(疫学では交絡と読んでいるアレなど)の影響を除去する操作です。
雑駁な例を挙げると「山」という漢字がつく県は、果物の産地です。
山形:さくらんぼ、山梨:ぶどう・もも、富山:りんご、和歌山:みかん、岡山:ぶどう・もも、山口:ふぐ?(ごめん、果物思いつかなかった)。
そして、果物の産地に住んでいる人は献血しに行くに違いない、という仮説が得られるかも知れません。
もし、本気でそう考えたなら果物生産量という変数を導入する事により、検証出来るかも知れません。
「果物産地仮説」は「山という漢字が影響している仮説」、といいう仮説よりは正しそうです(山口県の「ふぐ」がフルーツであれば)。
まとめ
荒唐無稽な相関関係があった時の解釈としては、検証的研究か探索的研究かで評価が異なると考えています。
検証的研究であれば、偶然誤差・系統誤差の影響を考慮したり、除去したりして、荒唐無稽であっても、真の因果なのかどうかを調査・検討します。
探索的研究であれば、「探索研究で○○という結果が得られた」という報告を行い、次の研究として検証的な研究を行います。
いずれの場合であれ、統計解析を行う以上、人間の予断が入らざるを得ないので、正しい予断(?)を導入する必要があります。
利益相反(COI)について
コメント頂いたり、ツイート等を引用させて頂いた方達との利益関係はありません。様々なご意見・ご指摘を頂きありがとうございました。
金銭・経済的なCOIはありません。ただし、金銭を頂くことを拒否している訳ではありません。何か贈りたい方は是非お願いします(ダイマ)。