神経科学や実験経済学の再現性についてメモ【再現性】

2022年4月30日 18:53

以前の記事では、査読付きの主要学術誌に掲載された心理学研究について、その再現性が3割程度に過ぎないと判明したこと、過去の有名研究が次々に追試失敗していること、世界的にみれば学界をあげた対策が進められている（信頼性革命）ことを紹介しました。

心理学は信頼できるのか？　再現性の問題【心理学】
https://note.com/s1000s/n/n535be7155581

心理学・行動経済学等の著名な研究論文が次々に追試失敗【心理学】
https://note.com/s1000s/n/na0dbd2e8632d

上記記事では、主に心理学についてとりあげています。では、心理学以外の分野ではどうなのでしょうか。ぽちぽち検索してみると、

……少ししか分かりませんでした。

その少しについてまとめておきます。主に神経科学、ほんのちょっと実験経済学（と行動経済学）についてです。

私としては、多くの学問分野が実は危機状態なのだろうなと予想はしています。心理学がマズイ状態なのに他の社会科学は無傷であった、などということはまずないでしょう。心理学の危機及び信頼性革命は、じわじわと他分野にも広がっていくのではないでしょうか。

神経科学

神経科学も心理学と似たような問題を抱えているのではないかと指摘しているのは、知能情報学の神谷之康さん（京都大学教授）です。以前も記事において何度も引用しましたが、今回もお世話になります。

これ、だいぶアップデートしました（まともな日本語になってない箇所が多数ありましたね）。今後も随時アップデートします（とくに因果推論を書き足す予定）

実験データ解析再入門：論文を「フェイクニュース」にしないために https://t.co/BU6lw3RAde
— Yuki Kamitani (@ykamit) March 19, 2022

神谷之康著「実験データ解析再入門」の内容に関しては、私の能力では雰囲気を感じることしかできませんが、以下の記述は興味深いです。

「神経科学では計測のハイスループット化が進み、現象をじっくり観察する機会が減っている。データ解析への依存度が高いと、不適切なデータ解析から誤った主張が導かれるリスクが高まる。実際、実験データをでたらめなデータ（生成したノイズや、ラベルや対応関係をシャッフルしたデータ）に置き換えても同じような「有意な結果」がでてしまうような解析を行っている研究が多数「トップジャーナル」に掲載されている。」

神谷之康「実験データ解析再入門：論文を「フェイクニュース」にしないために」2022年3月4頁https://speakerdeck.com/ykamit/shi-yan-detajie-xi-zai-ru-men-lun-wen-wo-hueikuniyusu-nisinaitameni

実験データをでたらめなデータに置き換えても同じような有意な結果が出てしまうような解析って……。主張したい内容を何でも正当化できるようなもので、恐ろしいです。

神経科学におけるQRPs（疑わしい研究手法）の現状についても、印象論ではあるようですが、次のように指摘されています。

「神経科学に絞った調査結果は見当たらなかったが、個人的には、心理学と比べて問題が少ないという印象はない。むしろ‥」

前出：神谷之康

私なんかは神経科学という名前が「科学っぽい」せいか、けっこう信用できるもんだと思い込んでいました。

この神谷さんは再現性警察と呼ばれているそうですが、そんな綽名がついているだけあって、ツイッター上で再現性関連の話題を色々と呟いています。私が拾ったものをいくつか。

神経科学がいう「有意な結果」の大半はウソ！？

神経科学の論文を読んで、「有意差」が報告されているとしても、飛びついてはいけないようです。

日本の神経科学ではあまり話題にならない「陽性適中率」の怖い話：

・パワー（本当に差があるときに検定で有意差が出る確率；Nが多いほど大きくなる）は、神経科学の論文では中央値で20％くらいしかない。ふつう80％くらい欲しい。つまりNが少なすぎる pic.twitter.com/dnslmOeJFf
— Yuki Kamitani (@ykamit) June 6, 2021

・パワーが20％で、いま仮に、研究者が思いつく仮説のうち10％が正しい（帰無仮説が90％正しい）とすると、有意差が出た仮説が本当に正しい（差がある）確率は、1/3程度しかない。つまり、論文の有意な結果は、大部分「ウソ」 pic.twitter.com/YrQNzQRXxO
— Yuki Kamitani (@ykamit) June 6, 2021

・有意差が出た仮説が本当に正しい（差がある）確率が、「陽性適中率」に対応。コロナ検査で陽性になったときに本当に感染している確率、と同じ考え方。

・これは、Nが少ないこと以外に問題がない場合の話。出版バイアス（有意な結果しか論文にしない）などあるともっとひどくなる
— Yuki Kamitani (@ykamit) June 6, 2021

（上の議論で、有意水準は5％と仮定）
— Yuki Kamitani (@ykamit) June 6, 2021

まとめると、だいたい次のような話だと思います。

研究者が「これこれは有意だ」という仮説を1000件思いつきました。このうち1割の仮説のみが本当に正しいとすると、正しい仮説は100件、ウソ仮説は900件です。

さて、仮説1000件を全て検定しましょう。

1000件について、研究者は「有意差がある」という結論を期待しています。そこで、それぞれの仮説について帰無仮説「有意差なし」が立てられます。研究者は帰無仮説が否定されることをもって「有意差あり」という対抗仮説が支持されることを期待するわけです。

検定力（パワー）が20％とすると、正しい仮説100件のうち20％、20件については、正しく帰無仮説（有意差なし）が棄却され、「有意差あり」と出てきます。

そして、有意水準を5％とするならば、ウソ仮説900件のうち5％、45件については、誤って帰無仮説（有意差なし）が棄却され、「有意差あり」と出てしまいます。

つまり、仮説1000件のうち65件（20件の正しい仮説+45件のウソ仮説）が「有意差あり」と出てくるわけですが、そのうち正しい仮説（本当に有意差のある仮説）は20件にすぎません。すなわち有意差が出た仮説が本当に正しい確率は65分の20。約3分の1というわけです。

※　統計学はほぼ知らないので色々間違っているかもしれません。ちょっとは勉強しないとなぁ、勉強すべきこと多すぎ問題。

分野によっては、さらに状況は悪いようです。

上のスライドで、Brain imagingのパワー8％とありますが、これは脳の体積を調べる方法（VBM）に関するものです。よくメディアに取り上げられますが、再現性のない研究が多いので気をつけましょう
— Yuki Kamitani (@ykamit) June 6, 2021

検定力（パワー）が8％。上の計算に当てはめると、有意差が出た仮説が本当に正しい確率は15％程度になってしまうと思われるのですが……。

Brain imaging（脳撮像）とか、VBM研究（脳構造と行動の相関）とか、キャッチーな感じがするだけに、よくメディアには取り上げられるという話は納得。ふつうの読者・視聴者は再現性云々なんて気にしないので、ウソ話でも鵜呑みにしそうです。少なくとも、去年夏までの私なら鵜呑みにしたでしょう（確信）。

※　臨床検査一般の陽性的中率などについては以下が参考になります。神谷さんのツイート上に陽性的中率の話があるので念のため。
三宅⼀徳「臨床検査の偽陽性と偽陰性について」https://www.jslm.org/committees/COVID-19/20200427.pdf

神経科学の検定力（パワー）が低い理由には、サンプルサイズの小ささがあるようですが、その弊害がずばり指摘されたのが以下の話。

ブレインワイド関連解析はサンプルが二桁足りていない！？

ブレインワイド関連解析（BWAS）ってなんだよと言われると、私もよく分かってないんですが、MIR脳構造・活動パターンと個人特性との相関に関する研究とのこと。

精神疾患の予測・予防や、認知能力の解明に役立つと期待されているものの、従来の研究はあまりにもサンプルサイズが小さく信頼できない、と。

「複雑な行動」というより、個人特性（認知能力、精神疾患のスコアなど）とMRI脳構造・活動パターンの相関についてですね（脳バイオマーカーとか）。数千人の被験者がいないと再現性が高い結果はえられない。今までの研究（中央値25人程度）はほとんど信頼できないhttps://t.co/nCkAhJUCS2
— Yuki Kamitani (@ykamit) March 17, 2022

　脳の構造や機能と複雑な行動との関連性を評価する研究では、結果の信頼性を確保するために数千人分のサンプルが必要なことが、約5万人分のデータの解析によって明らかになった。このことを報告する論文が、Nature に掲載される。
　ブレインワイド関連解析（BWAS）は、磁気共鳴画像法（MRI）などの脳スキャンのデータを用いて、脳の構造や機能の多様性と認知やメンタルヘルスに関連する特徴との関連を調べることを目指す。この関連性は、精神疾患の予測や予防と、ヒトの認知能力の解明を進める上で役立つ可能性がある。しかし、MRIデータの取得には高いコスト［1時間当たり約1000ドル（約11万円）］を要するため、BWASのサンプルサイズが抑制され（参加者数は25人程度になることが多い）、再現性のある結果を得ることが困難になっている。

Nature asia「Neuroscience: Sample size matters in studies linking brain scans to behaviour」
2022年3月17日
https://www.natureasia.com/ja-jp/research/highlight/14015?utm_source=Twitter&utm_medium=Social&utm_campaign=NatureJapan

数千人分の被験者が必要なのに、実際に行われている研究の中央値をとると被験者は25人程度である。二桁足りていません。恐ろしい現実です。

この問題には技量や誠意以前にコストの問題が立ちはだかっています。MIRデータ取得が1時間当たり11万円かかるというのに、そのデータが数千必要となれば、価値のある研究をするには何億もかかることになります。当然莫大な時間もかかるでしょう。もはや研究者たちが自ら取得したデータだけを用いて研究できる規模ではなくなります。強制的な情報共有や、研究対象の絞り込みなどが必要ではないかと指摘されているとのこと。

Marekたちは、BWASの解析結果を改善するための今後の取り組みには、強制的な情報共有の方針に基づいたデータの集約が含まれ、脳の構造や機能と認知やメンタルヘルスの表現形質の関連性の中で最もロバストなものに着目するという配慮も含まれるかもしれないと結論付けている。

前出：Nature asia

以下による紹介がよいと思いました。

（2022年6月13日追記）
怪しまれているブレインワイド関連解析（BWAS）研究の実例も紹介されています。

https://t.co/qKmF6O0fos pic.twitter.com/Jzk6rDjk9t
— Yuki Kamitani (@ykamit) June 11, 2022

↑の脳が「縮む」「変形する」のエビデンスについては↓https://t.co/xyMygbI4eX
— Yuki Kamitani (@ykamit) June 11, 2022

この図にある「暴言で傷つく脳部位」って、暴言を受けたグループのほうが脳（灰白質）体積が「大きい」部分なんです。被虐待群で小さい部位は「減少」で、大きい部位は「傷つく」って解釈が恣意的過ぎません？https://t.co/LO5f6Y1cdz https://t.co/33kvNftFaw
— Yuki Kamitani (@ykamit) July 11, 2021

脳（灰白質）の体積を被虐待群とコントロール群（それぞれ約20名；パワー不足）で比較して、一番大きな差が出る脳部位を選んで相関を調べて（二度付け）この程度。再現性は厳しそう pic.twitter.com/4lsTf9AOwu
— Yuki Kamitani (@ykamit) July 11, 2021

↑は、MRIをつかって脳のサイズを群間で比較する”BWAS”研究の一種。1群20名程度の被験者。

最近は、BWASで再現性のある結果を得るには数千の被験者が必要、とされているhttps://t.co/7x9q6E45Gx
— Yuki Kamitani (@ykamit) June 11, 2022

「貧困脳」に関する怪しい論文

貧困と子どもの脳の発達の相関に関して「貧困脳」と称される研究があります。貧困は子どもの脳の発達を阻害するという話です。

最近では、「低所得世帯の母子100組に現金333ドル（約4万円）を1年間支給したところ、高周波数帯域で高い脳波パワーがみられるようになった」というような研究が報告されたようです。しかしその研究には色々と問題があるようで……。

「貧困層の母親に子供が生まれてから1年間、現金を支給したら子供の脳機能が向上した」というPNASの論文がNYTで取り上げられています。日本でも少し遅れて紹介されそうですが、色々問題のある研究なので注意しましょう https://t.co/mTtnOmpkvD
— Yuki Kamitani (@ykamit) January 26, 2022

赤ちゃんの脳波（EEG）の高周波パワーを指標にしていて、EEGと認知機能の関係は下の論文を根拠にしていますが、かなり弱いです。p = .03で外れ値を除外すれば消えそうな効果https://t.co/EsHpnhW9oh
— Yuki Kamitani (@ykamit) January 26, 2022

この現金を渡すRCT研究では、事前登録どおりに解析して多重比較補正をすると、統計的に有意な効果はなくなります
— Yuki Kamitani (@ykamit) January 26, 2022

研究者の記事よりGIGAZINEの方が信頼できるhttps://t.co/Gq5UrqILfj
— Yuki Kamitani (@ykamit) April 5, 2022

私なんかは「現金給付のメリットが明らかに！」系の研究には飛びついてしまいたいタイプなだけに、このような結果は残念です。

具体的な問題点についてはギガジンの記事で簡潔に整理されています。

以下の結論が、まぁ正しいんでしょうなぁと。

こうした経緯から、CSPI Centerは「今回のような事例は、公共政策の議論において社会科学が果たす役割を再考させるものです」「人気のある政策を支持するような派手な研究はたいてい信用できないものであり、劇的な効果はたいてい誇張されたものか、有利なデータ選びをするp-hackingが行われたものか、偶然の産物なのです」と主張しました。

Gigazine「「現金給付で子どもの脳波パワーがアップした」との研究に浮上した疑惑とは？」
2022年04月05日
https://gigazine.net/news/20220405-baby-brainwaves-policy-fraud/

派手な研究はたいてい信頼できない。劇的な効果はたいてい誇張されたもの。このあたりのフレーズは覚えておきたいです。（それはそれとして三権のみなさまにおかれましては貧困問題に真摯に向き合ってください）

なんだか神谷さんの警察活動を紹介する記事みたいになっていますね。紹介したのは一部で、他にも色々とありいずれも参考になります。

実験経済学（と行動経済学）

実験経済学については、主要誌掲載論文の再現率6割は程度だったとのことです。心理学より高いですが、専門家からしても安心できる再現率とはいえないようで。

周辺領域におけるこうした流れを受けて、ある実験経済学、行動経済学のグループはAmerican Economic Review、Quarterly Journal of Economics 等の経済学分野における主要誌に掲載された経済実験研究の追試を行い、実験経済学分野における再現率は61％程度であったことが報告している（Camerer et al., 2016）。実験経済学研究の再現率は、心理学分野に比べて高かったものの、主要誌に掲載されている知見の4割程度は再現できなかったという点は見逃すことが出来ない。

犬飼佳吾ほか
「2019 年度実施状況報告書　経済実験における研究知見の再現性と頑健性に関する検討」
https://kaken.nii.ac.jp/ja/report/KAKENHI-PROJECT-19K21701/19K217012019hokoku/

文中の（Camerer et al., 2016）とはこれのことでしょう。

「経済学における再現性に関するデータを提供するため、2011年から2014年の間にAmerican Economic ReviewとQuarterly Journal of Economicsに掲載された18件の研究を再現した。これらの複製はすべて事前に公開された分析計画に従っており、5％有意水準で元の効果量を検出する統計的検出力は90％以上である。11の複製（61%）について、元の研究と同じ方向に有意な効果を見出した。平均して、複製された効果量は元の研究の66%である。」（DEEPL翻訳）

「Evaluating replicability of laboratory experiments in economics」2016年
https://www.science.org/doi/10.1126/science.aaf0918

AERやQJEは一流誌ということですが、それでも4割程度は再現できなかったようです。しかも再現できた研究についても元々の研究ほどの効果はみられなかったと。（あと対象が18件というのは十分な数なのでしょうかね。追試はかなり大変とのことで、能力的な限界もあるとは思うものの心配です）

実験経済学はそうだとして、行動経済学はどうなんでしょう。『ファスト＆スロー』にさえ信頼性の低い研究がけっこうな数引用されていることについては以前に書きましたが、分野全体としてみたときにどうなのかは不明です。

行動経済学は実験経済学と似たところのある学問ではありますが、心理学的要素がより濃い分、再現性という意味ではより危ない気はします。これはあくまで以下を読んでの印象論ですが。

「――似たような学問では行動経済学という分野もありますが、実験経済学との明確な違いとはどのようなものでしょうか。
竹内氏：かなりオーバーラップする部分はあります。実験経済学も行動経済学も、決して理論先行型の学問ではなく、まずはデータから理論を構築するという視点は共通だと思います。ただし実験経済学はどちらかというと検証の手法なんです。人間らしい行動を知るための経済実験もたくさんある一方で、逆に、どういう条件が整えば経済学の教科書どおりの効率性が達成できるのかを分析する実験もあります。そこは行動経済学とはまったく大きく違っていますね。
　行動経済学はもっと人間の心理的要素を数学的に取り込もうとしている学問です。実験経済学とは異なる部分も多いです。

竹内先生に聞く「行動経済学と実験経済学から経済と投資を読み解くと」前編
2017年12月25日
「お金のキャンパス」Sponsored by みずほ証券
https://money-campus.net/archives/3843

学界として再現性については敏感になっているという指摘もありました。

ご存じのように、昨年、世界的な実験経済学の学会（ESA）で、再現実験を中心に載せるジャーナルが新しく創刊されていて、再現性についてはみんな敏感になっています。

川越敏司発言
「パネルディスカッション「行動経済学の過去・現在・未来」」2016年
https://www.jstage.jst.go.jp/article/jbef/9/0/9_46/_pdf

以上の通り、神経科学や実験経済学（と行動経済学）も再現性については課題を抱えているようです。

「過去の研究が追試失敗！」と話題になること自体は、いたって健全なことだと思っています。むしろ問題に気づくのが早いほど、その学問の将来にとっては好ましいでしょう。

なお今の時代を生きる研究者の人生にとっては大変な厄介事だと思います。