神経科学や実験経済学の再現性についてメモ【再現性】
以前の記事では、査読付きの主要学術誌に掲載された心理学研究について、その再現性が3割程度に過ぎないと判明したこと、過去の有名研究が次々に追試失敗していること、世界的にみれば学界をあげた対策が進められている(信頼性革命)ことを紹介しました。
心理学は信頼できるのか? 再現性の問題【心理学】
https://note.com/s1000s/n/n535be7155581
心理学・行動経済学等の著名な研究論文が次々に追試失敗【心理学】
https://note.com/s1000s/n/na0dbd2e8632d
上記記事では、主に心理学についてとりあげています。では、心理学以外の分野ではどうなのでしょうか。ぽちぽち検索してみると、
……少ししか分かりませんでした。
その少しについてまとめておきます。主に神経科学、ほんのちょっと実験経済学(と行動経済学)についてです。
私としては、多くの学問分野が実は危機状態なのだろうなと予想はしています。心理学がマズイ状態なのに他の社会科学は無傷であった、などということはまずないでしょう。心理学の危機及び信頼性革命は、じわじわと他分野にも広がっていくのではないでしょうか。
神経科学
神経科学も心理学と似たような問題を抱えているのではないかと指摘しているのは、知能情報学の神谷之康さん(京都大学教授)です。以前も記事において何度も引用しましたが、今回もお世話になります。
神谷之康著「実験データ解析再入門」の内容に関しては、私の能力では雰囲気を感じることしかできませんが、以下の記述は興味深いです。
実験データをでたらめなデータに置き換えても同じような有意な結果が出てしまうような解析って……。主張したい内容を何でも正当化できるようなもので、恐ろしいです。
神経科学におけるQRPs(疑わしい研究手法)の現状についても、印象論ではあるようですが、次のように指摘されています。
私なんかは神経科学という名前が「科学っぽい」せいか、けっこう信用できるもんだと思い込んでいました。
この神谷さんは再現性警察と呼ばれているそうですが、そんな綽名がついているだけあって、ツイッター上で再現性関連の話題を色々と呟いています。私が拾ったものをいくつか。
神経科学がいう「有意な結果」の大半はウソ!?
神経科学の論文を読んで、「有意差」が報告されているとしても、飛びついてはいけないようです。
まとめると、だいたい次のような話だと思います。
研究者が「これこれは有意だ」という仮説を1000件思いつきました。このうち1割の仮説のみが本当に正しいとすると、正しい仮説は100件、ウソ仮説は900件です。
さて、仮説1000件を全て検定しましょう。
1000件について、研究者は「有意差がある」という結論を期待しています。そこで、それぞれの仮説について帰無仮説「有意差なし」が立てられます。研究者は帰無仮説が否定されることをもって「有意差あり」という対抗仮説が支持されることを期待するわけです。
検定力(パワー)が20%とすると、正しい仮説100件のうち20%、20件については、正しく帰無仮説(有意差なし)が棄却され、「有意差あり」と出てきます。
そして、有意水準を5%とするならば、ウソ仮説900件のうち5%、45件については、誤って帰無仮説(有意差なし)が棄却され、「有意差あり」と出てしまいます。
つまり、仮説1000件のうち65件(20件の正しい仮説+45件のウソ仮説)が「有意差あり」と出てくるわけですが、そのうち正しい仮説(本当に有意差のある仮説)は20件にすぎません。すなわち有意差が出た仮説が本当に正しい確率は65分の20。約3分の1というわけです。
※ 統計学はほぼ知らないので色々間違っているかもしれません。ちょっとは勉強しないとなぁ、勉強すべきこと多すぎ問題。
分野によっては、さらに状況は悪いようです。
検定力(パワー)が8%。上の計算に当てはめると、有意差が出た仮説が本当に正しい確率は15%程度になってしまうと思われるのですが……。
Brain imaging(脳撮像)とか、VBM研究(脳構造と行動の相関)とか、キャッチーな感じがするだけに、よくメディアには取り上げられるという話は納得。ふつうの読者・視聴者は再現性云々なんて気にしないので、ウソ話でも鵜呑みにしそうです。少なくとも、去年夏までの私なら鵜呑みにしたでしょう(確信)。
※ 臨床検査一般の陽性的中率などについては以下が参考になります。神谷さんのツイート上に陽性的中率の話があるので念のため。
三宅⼀徳「臨床検査の偽陽性と偽陰性について」https://www.jslm.org/committees/COVID-19/20200427.pdf
神経科学の検定力(パワー)が低い理由には、サンプルサイズの小ささがあるようですが、その弊害がずばり指摘されたのが以下の話。
ブレインワイド関連解析はサンプルが二桁足りていない!?
ブレインワイド関連解析(BWAS)ってなんだよと言われると、私もよく分かってないんですが、MIR脳構造・活動パターンと個人特性との相関に関する研究とのこと。
精神疾患の予測・予防や、認知能力の解明に役立つと期待されているものの、従来の研究はあまりにもサンプルサイズが小さく信頼できない、と。
数千人分の被験者が必要なのに、実際に行われている研究の中央値をとると被験者は25人程度である。二桁足りていません。恐ろしい現実です。
この問題には技量や誠意以前にコストの問題が立ちはだかっています。MIRデータ取得が1時間当たり11万円かかるというのに、そのデータが数千必要となれば、価値のある研究をするには何億もかかることになります。当然莫大な時間もかかるでしょう。もはや研究者たちが自ら取得したデータだけを用いて研究できる規模ではなくなります。強制的な情報共有や、研究対象の絞り込みなどが必要ではないかと指摘されているとのこと。
以下による紹介がよいと思いました。
(2022年6月13日追記)
怪しまれているブレインワイド関連解析(BWAS)研究の実例も紹介されています。
「貧困脳」に関する怪しい論文
貧困と子どもの脳の発達の相関に関して「貧困脳」と称される研究があります。貧困は子どもの脳の発達を阻害するという話です。
最近では、「低所得世帯の母子100組に現金333ドル(約4万円)を1年間支給したところ、高周波数帯域で高い脳波パワーがみられるようになった」というような研究が報告されたようです。しかしその研究には色々と問題があるようで……。
私なんかは「現金給付のメリットが明らかに!」系の研究には飛びついてしまいたいタイプなだけに、このような結果は残念です。
具体的な問題点についてはギガジンの記事で簡潔に整理されています。
以下の結論が、まぁ正しいんでしょうなぁと。
派手な研究はたいてい信頼できない。劇的な効果はたいてい誇張されたもの。このあたりのフレーズは覚えておきたいです。(それはそれとして三権のみなさまにおかれましては貧困問題に真摯に向き合ってください)
なんだか神谷さんの警察活動を紹介する記事みたいになっていますね。紹介したのは一部で、他にも色々とありいずれも参考になります。
実験経済学(と行動経済学)
実験経済学については、主要誌掲載論文の再現率6割は程度だったとのことです。心理学より高いですが、専門家からしても安心できる再現率とはいえないようで。
文中の(Camerer et al., 2016)とはこれのことでしょう。
AERやQJEは一流誌ということですが、それでも4割程度は再現できなかったようです。しかも再現できた研究についても元々の研究ほどの効果はみられなかったと。(あと対象が18件というのは十分な数なのでしょうかね。追試はかなり大変とのことで、能力的な限界もあるとは思うものの心配です)
実験経済学はそうだとして、行動経済学はどうなんでしょう。『ファスト&スロー』にさえ信頼性の低い研究がけっこうな数引用されていることについては以前に書きましたが、分野全体としてみたときにどうなのかは不明です。
行動経済学は実験経済学と似たところのある学問ではありますが、心理学的要素がより濃い分、再現性という意味ではより危ない気はします。これはあくまで以下を読んでの印象論ですが。
学界として再現性については敏感になっているという指摘もありました。
以上の通り、神経科学や実験経済学(と行動経済学)も再現性については課題を抱えているようです。
「過去の研究が追試失敗!」と話題になること自体は、いたって健全なことだと思っています。むしろ問題に気づくのが早いほど、その学問の将来にとっては好ましいでしょう。
なお今の時代を生きる研究者の人生にとっては大変な厄介事だと思います。
この記事が気に入ったらサポートをしてみませんか?