心理学・行動経済学等の著名な研究論文が次々に追試失敗【心理学】
心理学の研究論文は再現性が低いことが指摘されていました。再現性が低くなる原因は、学界全体に「疑わしい研究手法 (QRPs)」が蔓延していたことにあるとみられます。
現在は学界全体をあげての対策が行われているようです。研究の事前登録、データの公開、追試などが重視されるようになっています。
学界は正しい方向に進んでいるようですが、だからこそ、重要な発見だとみなされてきた過去の研究成果が次々に覆されているようです。
少々調べましたが……、いやはやこれは……脱力しました。心理学以外の分野でも援用されている有名な研究たちが、あれもこれも。興味を引かれたものに重点をおきつつ、ざっくりとメモ的にまとめておくことにします。
2021年9月12日追記
追試というのは、1年半以上かかるものも珍しくないようです。かなりの時間・精神力・体力を要するのに対して、見返りが少ないものといいます。この記事では多くの研究の再現性が失われていることを紹介しますが、背景には多くの研究者の善意があることを忘れてはならないと思いました。
◆
1 再現性が疑われるなどしている研究たち
2022年8月19日追記
2008年に発表された100本の論文を対象とした大規模な追試プロジェクトの結果によると、心理学のトップジャーナルの論文を対象とした研究において、再現性が認められたのは4割程度だったと言われます(5%有意水準)。心理学とはいえ分野によって再現率は異なり、社会心理学系では25%、認知心理学系では50%程度は再現できたようです。
後にも述べますが、心理学全体がデタラメだという話ではありません。しかし、心理学研究の知見は膾炙していますから、この結果は大きな反響を呼びました。
こうした経緯により、心理学研究に関して大規模な追試プロジェクトがなされるようになました。強調したいのが、成果の見直しが行われているということです。この態度はまことに科学的なものと言えます。
実際、社会心理学系研究も含めて再現に成功した例もでています。
しかしその反面、キャッチーな研究結果が次々に再現失敗。有名研究の信頼性が揺らぐことになったのです。本記事では再現に失敗した研究例などについて紹介します。(追記終了)
細かくみると、再現性がないとするものから、再現自体はできたが元論文ほどの効果は検出されなかったとするもの、元論文における説明の妥当性に疑問符がつくものなど、さまざまなパターンがあるようです。
英語文献からの引用が多い記事です。再定番のDeepL翻訳おいときます。
日本の研究者の方々はツイッター上において、国外における追試論文をしばしば紹介してくれているようです。それらを中心に、疑われている研究たちを個別にみていくことにします。
どのアカウントがどの研究者のものなのかは、わかる範囲で記します。もちろん、アカウント主が追試論文の執筆者というわけではありません。
表情フィードバック仮説
表情フィードバック仮説とは、表情を作ると、それを原因として表情に対応した感情が生起するという仮説です。有名な仮説ですが、再現しても同じ結果は出ず、効果は思った以上に小さかったとのこと。
けっこう驚きです。「ペンや箸をくわえて笑顔を作れば本当に幸せな気分になる」という話はしばしば聞いてきました。いまだに信じている人がいっぱいいるだろうなぁと思うところです。
ただし、追試に失敗した報告のあと、追試失敗の研究にも手順の誤りがあったのではないかと指摘されているようです。
以下のツイートも参照
https://psycnet.apa.org/record/2018-16714-001 以下DeepL翻訳
なお、「Yuuko Morimoto」は、おそらく森本裕子さん(宇部フロンティア大学講師)のアカウント。なるほど。追試の失敗がビデオ撮影のせいだとしたら、復権の可能性もあるわけですか。
2022年8月18日追記
表情フィードバック仮説については、大規模追試の結果にも批判がでたために再び大規模追試が行われることになったようです。大規模追試にまつわる難しさも含めて、以下の資料の11頁以降に詳しく書いてあります。マニアックです。
平⽯界・中村大輝「⼼理学における再現性危機の10年―危機は克服されたのか、克服されうるのか―(⾮短縮版)」2022年
マシュマロテスト
マシュマロのつまみ食いを我慢できる子供は将来有望だ、というような仮説です。効果は限定的であるとのこと。
マシュマロテストはしばしば耳にしたし、目にしてきたので、ちょっと驚きです。ただ、もともとこの研究にはあまり関心は引かれていなかったので、私としてはショックはあまりありません。
なお、以下も参照。
森口佑介さんは発達心理学者(京都大学准教授)。マシュマロテストの効果は極めて弱い、もしくはほぼない、ですか。
「目」の効果(目の画像による向社会性の向上)
「こちらを見つめる目」の図柄があると、それを見た人は誠実に振る舞うようになるという仮説です。再現性がないとされています。
再現性がないというのはけっこう驚きですね。人の目を模した絵が描いてあるポスターは、たまにみかけます。
なお、「人の目効果」の研究は著名な日本人研究者も関わってきたので、日本の研究者コミュニティにとっても他人事ではないようです。
「Yuki Kamitani」は、知能情報学の神谷之康さん(京都大学教授)のアカウント。
スタンフォード監獄実験
スタンフォード大学で行われた心理学実験。普通の人々も刑務所の看守役・囚人役に選ばれると、看守・囚人らしく振る舞うようになることを示したはずでしたが、やらせ疑惑が出ています。再現性もないようです。
スタンフォード監獄実験が怪しいこと自体は知っていましたので、驚きはありません。なお、以下の記事も参考になります。
宣誓効果
宣誓という行為が人を正直にするという仮説です。この仮説を検証したとする実験は、行動経済学者主導のもと自動車保険会社によって実施されていたのですが、データの捏造があると指摘されました。以下の記事において詳しく解説がなされています。
あと、このブログもよかったので貼り付けておきます。
驚きとともにガックリです。宣誓効果の存在を知ったのは何年前だったか。当時はひねくれていたので、「こんな宣誓なんかに効果があるのか!」と、かなり驚いたものです。本当に効果がないかもしれないというなら肩透かし。ひねくれが足りなかったか……。行動経済学という分野そのものを疑っておくべきだったか? いや、それはさすがに無理だったよ……(←分野自体を疑うのは合理的でもないでしょう)。
捏造論文の共著者の一人がダン・アリエリーさんであることも注目すべきポイントでしょう。アリエリーは世界的に有名な学者であり、日本においても知名度が高いからです。早川書房から出ている『予想どおりに不合理』『不合理だからすべてがうまくいく』『ずる』などは読んだ人も多いはず。
アリエリーについて、以下のツイートも興味深いので記録しておきます。
「Y.Asako」は政治経済学者の浅古泰史さん(早稲田大学准教授)のアカウント。上記ツイート中にある「endowment effect 授かり効果」に再現性がない件については下の方で別途とりあげます。
「Ken McAlinn」は統計学者のマクリン謙一郎さん(テンプル大学助教)のアカウント。
アリエリーが「宣誓効果」の証拠として示した研究はいくつかあるようです。一つはアリエリー主導のもとで自動車保険会社によって実施された実験なわけですが、先述の通りデータ捏造が明らかにされました。
「十戒」を思い出すと不正が減るという実験も有名ですが、大規模追試で再現できなかったようです。
追試によれば、十戒の効果はゼロに近いことで合意。逆方向の効果がみられた研究室もあったとのこと。なお、『予想どおりに不合理』では、「MIT無監督試験の倫理規定」を思い起こさせる実験も紹介されていたわけですが、推して知るべしでしょうね。
分離脳実験
左脳と右脳は脳梁を介して結びついています。しかし、てんかん患者の中には、やむを得ず脳梁を切断した患者もいます(昔の治療法)。そうした患者においては、あたかも左脳の心、右脳の心と二つの心があるかのような振る舞いがみられるという話だったのですが……。再現性がないとのこと。
私はミッドライフ・クライシスが問題とされるような年齢ではないわけですが、これにはかなり衝撃をうけました。(←これが一番ショックかもしれない。なお、心理学の範疇なのか脳科学なのかよく分からない)
記事を読む(DeepL翻訳)と、何やらジュリオ・トノーニ「情報統合理論」などにまで波及するかもしれないようで、大変なことになりそうな気配です。ただ、今回研究の対象となった患者は脳梁除去手術からかなり時間がたった人だったため、なんらかの理由で分離脳現象がなくなったという可能性もあるようです。さらなる研究の必要性は指摘されているので、続報を待ちたいところです。
いやぁ。分離脳研究は極めて興味深い現象だと思ったので、けっこうがんばってメモを取りながらガザニガさんの本を読んだものですが……。脳の左半球は主に右半身および右視野を担当し、右半球は主に左半身および左視野を担当するわけで、分離脳の解説を読むと右左左右左右とごちゃごちゃになるのですよ。理解に労力を費やしたんですけどね……。
2022年8月18日追記
ガザニガの研究に疑義が提起されたにせよ、分離脳の研究自体は継続しているようです。新たに得られた知見は、批判研究を踏まえた分離脳の再解釈や新理論へとつながっていくかもしれません。例えば、左脳と右脳は脳梁ばかりではなく、皮質下で繋がっている可能性がでてきていたりするそう。
ちゃんとした脳科学って一般向けの記事や書籍でさえ理解が大変だ…。ガザニガの邦訳は4冊以上読んでいるので、復権はしてほしいなぁ。
脳画像のもつ説得力
脳の画像さえ添付されていれば、その文章の信頼性があがるという仮説。大規模追試によれば、ほとんど再現性なし。
この話はマイケル・S・ガザニガ『〈わたし〉はどこにあるのか』でもとりあげられていたような。インパクト強かったんですが、再現性なし。あらららら。
自由意志を疑う人は不正に走りやすい
自由意志信念をもつ人ほど望ましい道徳特性をもち、疑う人ほど不正行為に手を染めやすいという仮説ですが、再現されず。
以下DeepL翻訳
この研究が追試されなかったのもインパクトが大きいです。科学哲学とか倫理学の著作でも引用されてきたのでは? どこかで見た記憶があります。
1万時間の法則
ものごとを極めるには1万時間を費やす必要があるという法則。いや、これ研究の世界の話だったんですか。再現されず。
Brooke N. Macnamara&Megha Maitra(2019年)
「The role of deliberate practice in expert performance: revisiting Ericsson, Krampe & Tesch-Römer (1993)」
https://royalsocietypublishing.org/doi/10.1098/rsos.190327
「1万時間の法則」という言葉自体は知っていましたが、元ネタの研究があるのは知らなかったし、ゆえにその研究の再現性が疑われていることも知りませんでした。もともと「どこかの国の言い伝え」程度のものだと思っていたので、再現性がなかったとしても特に驚きはなし。
ダニング・クルーガー効果
能力の低い人は、能力の低さゆえに自らの能力を過大評価するという仮説です。こうした現象自体は存在するものの、自らの能力を過大評価する理由が能力の低さのせいなのかどうかについては怪しいようです。
Gilles E.Gignac&MarcinZajenkowski(2020年)
「The Dunning-Kruger effect is (mostly) a statistical artefact: Valid approaches to testing the hypothesis with individual differences data」
https://www.sciencedirect.com/science/article/abs/pii/S0160289620300271
「もむ」は、認知心理学者の山田祐樹さん(九州大学准教授)のアカウント。上の方で引用した日経新聞の取材を受け、コメントを寄せている方です。
ダニング・クルーガー効果はけっこう聞く話だったので、ちょっとした驚きです。ただ、この効果については、もともとあまり興味をそそられなかったので、正直なところ正確に言えばどんな効果なのかは知りませんでしたし、メカニズムのどこがどう怪しいのかもよく分かっていません。一応紹介しておきました。
マクベス効果
道徳的な脅威にさらされると、清潔さが意識され、身体を洗いたくなるという効果です。再現されず。
https://www.tandfonline.com/doi/abs/10.1080/01973533.2013.856792?journalCode=hbas20 以下DeepL翻訳
「oʞɐsɐ ɐɹnıɯ」は社会心理学者である三浦麻子さん(大阪大学教授)のアカウント。この方も上の方で引用した日経新聞の取材を受け、コメントを寄せていますね。
「マクベス効果」は、ジョナサン・ハイト『社会はなぜ左と右に分かれるのか』第3章に取り上げられていたのを読んで知ったわけですが、当時は「なんじゃそりゃ、すごい現象だな」と驚いたものです。印象には残っていたのですが、再現性なしとの報せが驚きかというと、そうでもないような……。元々の仮説が私にとって奇妙すぎたのが原因か。
グロース・マインドセット理論
才能(知能)よりも努力を誉めたほうがやる気が出るというような理論です。再現性はほとんどないとのこと。
以下DeepL翻訳
「やればできる!」「成長マインドセット」などとも呼ばれているようですが、この話も聞いたことがありましたね。
再現性がみられないにせよ、論旨自体は教育哲学として重要かもしれないという指摘はあるようですが……。どうなんでしょうね。
ほとんど関係のない話ですが、怠惰な私としては才能も努力も賞賛もなくても幸せに暮らせる社会になってほしいところです。
ステレオタイプ脅威
「女は数学が苦手」「黒人は白人より学力が低い」などと言うステレオタイプを意識させると、実際に試験の点数が下がるという仮説。そうした効果はほとんどないというメタ分析や、再現に失敗する実験が増えてきたという。
「MasashiKasaki」は哲学研究者である笠木雅史さん(広島大学准教授)のアカウント。
他方、この研究に再現性がなかったことから「ステレオタイプ脅威が嘘」とまではいえないという点を強調する意見もありました。
以下のツイートを参照(かなり長いので特に重要だと思ったものだけ貼り付けておきます)。
まとめると、現時点で言えるのはせいぜい「本当に存在するかは分からない」「大きな効果はあるとは言えない」ところまでであることを確認しつつ、①そもそも効果自体は存在していて、現場におけるさらなる研究や、文化差を考慮した研究が進展すれば確認されるかもしれない、②仮に普遍的にみられる脅威ではないと明らかになったとしても、個々にも存在しないことになるわけではないということを指摘しているといったところでしょうか。政治に絡んできそうなテーマなだけに大げさな解釈には注意が必要ということでしょう。
付け加えていうなら、もともと「ステレオタイプ脅威」と言われる研究は、ステレオタイプがもつ全特性を網羅的に研究したものではないでしょうから(たぶん)、現在までに行われた研究が信頼できないからといって、ステレオタイプの問題性がなくなるわけではないでしょうね。
ただ、既存の「ステレオタイプ脅威」研究に信頼性がないことは知られておくべきでしょう。「ステレオタイプ脅威は嘘」とは言えなくとも、「ステレオタイプ脅威を証明したという従来の証拠は信頼できない」とは言えるわけです。信頼できない証拠が、あたかも信頼できるかのような扱いをうけ、その誤解が正されぬままに政治が動かされていくのは望ましくありません。
2022年8月18日追記
大事な指摘だと思ったのでもう一度。「ある研究に再現性がなかったこと」は、その効果が存在しないことの証明にはなりません。
あと、これは当然のことですが、そもそも統計的にどうだろうが、再現性がなんだろうが、ステレオタイプに基づく差別はすべきではありませんね。この種の差別の中には人権侵害に当たるものもあります。被害規模の大きさに関わらず深刻に捉えるべきです。
ピグマリオン効果
教師の期待によって生徒の成績が向上するという効果。存在はするが、効果は小さいようです。
「Nobuhiro Mifune」は、進化心理学的社会心理学者である三船恒裕さん(高知工科大学准教授)のアカウント。
ピグマリオン効果もよく聞いた話だったのですが、効果量は小さいと。なるほど。「無い」というわけでもないので、そこは注意すべきみたいです。
ほとんど関係のない話ですが、怠惰な私としては「期待」や「成績」などがなくても幸せに暮らせる社会になってほしいところですね。
社会的プライミング効果
事前に見聞きした情報が、潜在的な処理を経て行動に影響を与えるという効果ですが、再現性がかなり低いとのこと。(少なくとも、「社会的プライミング効果」については)
細かい検討がなされた結果、社会的プライミング効果は信頼できないことが明らかにされてしまったようです。
この問題は、ノーベル経済学賞を受賞している超有名な行動経済学者・ダニエル・カーネマンさんが絡んでいるのが非常に厄介なところです。カーネマン『ファスト&スロー』は、学問の世界にとてつもなく大きな影響を与えたと思うのですが、以下で指摘されているように、全体として信頼性に欠けるようです。
以下DeepL翻訳
なお、カーネマン自身が行った研究は頑健性があるとのことです。
2022年8月18日追記
カーネマンの名声を確立した「プロスペクト理論」も再現に成功しているようです。優秀な学者であることは間違いないだけに、著書である『ファスト&スロー』の信頼性が揺らいでいることは残念です。
2021年11月3日追記
・ツイッター上で紹介されていたものですが、カーネマンと『ファスト&スロー』を巡る話題については、以下の記事が参考になりました。
Alison McCook(2017年)「“I placed too much faith in underpowered studies:” Nobel Prize winner admits mistakes」
・「再現性の危機」において疑われているのは、「プライミング効果」の中でも「社会的プライミング効果」と通称されているもののようです。例えば、以下のようなものが疑われています。
ただし、プライミング効果の中には、再現性が認められているものもあるそうです。
例えば、関連する単語を先行刺激として与えられていると、正しい単語を速く識別できるようになるという効果があります。「TABLE」という単語を見たばかりの人は、家具とは関係のない単語を見たばかりの人よりも、「CHAIR」と「CHIAR」のどちらが正しい単語か速く見分けることができるのです。このようなプライミング効果は再現性がみられています。
記事では、単にプライミング効果の再現性が低いと書いていたのですが、良くなかったようです。すみません。「プライミング効果」との記述を「社会的プライミング効果」へ書き換える等の修正をしました。
再現性が認められているプライミング効果等としては、以下のようなものが紹介されています。
心理学の中でも、知覚心理学・認知心理学分野では再現性が認められている研究も多いようです。社会心理学などと比べれば追試のコストが低く、再現実験が容易であること一因とみられます。
授かり効果
自分が所有した物はそうでない物より高く評価するという効果。再現性がみられなかったそうです。
Gharad Bryan, Matthew Grant, Kareem Haggag, Dean Karlan, Meredith Startz& Christopher Udry(2020年)
「Blue Porches: Finding the limits of external validity of the endowment effect」https://www.sciencedirect.com/science/article/abs/pii/S016726812030158X
成田悠輔さんは、「データ・アルゴリズム・数学を使ったビジネスと公共政策(特に教育)のデザイン」が専門とのこと(イェール大学助教授)。
オキシトシン点鼻薬の信頼性効果
鼻にオキシトシンを噴霧すると、それだけで信頼性が高まるというような研究ですが、再現されず。
「Tkikusui」は動物生命科学などが専門の菊水健史さん(麻生大学教授)のアカウントだと思います。オキシトシン点鼻薬が信頼性を高めるというのは「そんなに簡単に人間って変わっちゃうの!?」とかいう意味でなかなか衝撃的な話であり、さまざまな一般書で目にしてきた記憶があります。ぱっと出るものだと、ジョナサン・ハイト『社会はなぜ左と右に分かれるのか』第10章にもあったはず。でも再現されなかったということです。
赤の魅力効果(ロマンチック・レッド)
「赤色」が恋愛的魅力を劇的に高めるという効果のことです。再現性は低いとのこと。
以下、DeepL翻訳
赤色は魅力的みたいな話はネット記事とかではよく目にしてきましたね。大学のデジタルパンフレット? (デート・サイエンス? なんじゃこりゃ)でもとりあげられているようで、けっこう普及していそうです。
私としては「赤の魅力」の話が研究の世界の話だとは知りませんでした。もともと実感ベースで語られている根拠の薄い話だと思っていたので、効果がほとんどないとしても個人的にはショックはなし。
パワーポーズ仮説(22年6月追加)
力強いポーズをとると自信が湧いてくるというような仮説です。
海外では変わった理論が流行ってるんだな~くらいに思ってスルーしていましたが、日本でもそこそこ知られているようでした。再現実験に失敗しただけではなく、筆頭著者であるダナ・カーニーさんが自身の研究に問題があることを認めたようです。
自身の研究に問題があったことを認めて、それについての意見を表明するというのは、研究者として正しい態度だと思います。
確かにカーニーさんは自身のウェブサイトの冒頭に懐疑論を載せています(2022年6月1日現在)。
なお、サイエンスジャーナリストの鈴木祐さんによる記事がパワーポーズの概要と問題を簡潔にまとめていて良いと思いました。
自我消耗仮説(22年6月追加)
長いので注意。
自我消耗仮説とは、「意志力」は限られた認知資源であり、使い果たすと自制心がきかなくなるという仮説です。
存在は知っていたのですが、個人的にはあまり興味をそそられなかったのでスルーしていました。私が最初に知った自我消耗研究が「目の前にある焼きたてのクッキーが食べられず、赤カブで我慢させられるとパズルに集中する時間が減る」みたいな話で、「ええ……、だからどうしたの? そこから意志力どうこう言えるの?」と思ってしまったんですよね。この辺の感性は個人差が大きそうですが。
ただ、自我消耗研究は誰もが同意する同一の手続が存在せず、クッキー実験以外にもさまざまな研究例があるようです。
他方、従来からいろいろと批判もあったようで、それらについては以下の記事がよくまとまっています。だいたい次のような内容です。
・自我消耗は本物だというメタ分析研究に「出版バイアス」がみられた。
・レモネードなどによる糖分補給が意志力の促進剤になるという主張は完全に誤りである。
・自我消耗は「意志力は有限だ」と信じている被験者のみにみられた。つまりはプラシーボ効果である。
とはいえ、自我消耗仮説は(私の予想に反し)かなり重要な研究とみなされているらしく、近年では慎重な手続を経た上での大規模な追試が三つも行われています。
大規模追試その1(Hagger & Chatzisarantis, 2016)
→ 仮説に否定的な結果
まずは事前審査付の大規模マルチラボ共同追試研究が行われました。
元研究のロイ・バウマイスター本人の勧めを得た手続を採用した上での追試実験が行われたのですが、仮説に否定的な結果が得られてしまいました。
Hagger & Chatzisarantis,(2016) 。
「A Multilab Preregistered Replication of the Ego-Depletion Effect」
https://journals.sagepub.com/doi/10.1177/1745691616652873
しかし上記の追試結果については、バウマイスターから反論コメントがなされました。バウマイスター本人の勧める手続をとったのに、なぜでしょう。
バウマイスターによれば、手続については、プライベートの不幸や、早く確定せねばならないというプレッシャーを感じたがために了承したものの、積極的には推奨しておらず、今思えば楽観的に考えすぎていたとのこと。手続の具体的な問題点も指摘されたので、それを踏まえたのが次の追試です。
大規模追試その2(Dang et al., 2021)
→ 統計的に有意だが効果は小さい
バウマイスターが反論コメントにおいて推奨した「より強い自我消耗を生じさせる課題」を用いたマルチラボ共同追試が行われました。
「統計的に有意」とする結果ではありましたが、オリジナル研究で報告されたものよりもずっと小さな効果しか得られなかったようです。
Dang et al.(2021)「A multilab replication of the ego depletion effect.」
https://psycnet.apa.org/record/2020-96348-002
大規模追試その3(Vohs et al.,(2021)
→ 仮説に否定的な結果
もう一つのマルチラボ共同研究では、自我消耗の専門家から広く課題候補を募り、その中から精査した課題を用いて追試研究を行いました。しかし、結果は仮説に否定的なものでした。
Vohs et al.(2021)
「A multisite preregistered paradigmatic test of the ego-depletion effect.」https://psycnet.apa.org/record/2021-98417-004
この三つ目の追試については、選ばれた課題が良くなかったのだという批判があるようです。だたし、仮にそうだとしても、「専門家が考えて精査された課題について自我消耗は得られなかった」という事実は、自我消耗理論の射程範囲が狭いことを示唆しそうではあります。
見つけたものを全てあげたわけではないですが、このあたりにしておきます。いやはや、大漁です。素人の私がざっと漁ってみただけでこれですからね。これでも氷山の一角というわけですよ。
いままでの研究が次から次に退けられているという事実は、膿を出しきる作業が順調に進んでいる証でもあるわけで、心理学界全体としてみれば良い兆候といえるでしょう。現状はともかく、未来には希望がありそうです。
けれども、今まで積み重ねてきたものがガラガラと音を立てて崩れていく過程は今後もしばらくは続くわけでしょう。次のような指摘もあるほどです。
中西大輔さんは社会心理学者(広島修道大学教授)。「追試したら教科書の内容が全部変わってしまうのではないか」とは強烈な話です。しかし、21世紀に入ってからの研究でさえ多くが再現できていないところ、社会心理学の教科書には20世紀の研究もたくさん紹介されているわけですから、あながち誇張ではないのかもしれません。従来の社会心理学を学んできた人たちは大ショックでしょうね。社会心理学関係の研究は、他の分野と比べて再現性が低いようです。
2 関連した話題をいくつか
一般書全般、かなりまずいことになっているのでは?
心理学の研究は、経済学、法学、倫理学、哲学、社会学、教育学、文学、その他いろんな分野の研究者が援用しています。理系分野の研究者だって、いざ社会や人間について論じる際には心理学研究を持ち出したりするわけです。だから、心理学研究の話は、いろんな分野の一般書にでてきます。それら一般書の基礎もガタガタだったということになれば、色々と読んでいる人ほど怪しい情報を蓄積しているという悲しき現実が出来上がっているかもしれません。それどころか、たぶん一部の分野では専門書の類でも心理学研究を援用しているような気がするのですが、そのところどうなんでしょう。
あからさまな疑似科学でさえ一度広まると根絶しがたいわけですから、著名な学者の名前と共に広まったこれらの心理学説が放棄されていくには、どれだけの時間がかかることでしょうか。
今回の件のおかげで、私としては、「やっぱ現世人類、謬見と付き合いながら生きていく他ないんだなぁ」という当たり前の事実を深く再確認できました。真実の類は22世紀以降に期待し、マシな未来を求めていきましょう。
キャッチーな話を作って出したモン勝ち!?
人気が出そうな論文を出せば、再現性がなくても引用され続けるため、不正をやめる動機づけがないという指摘をみかけました。以下が認知心理学者の山田祐樹さんのツイート。
実際のところ、再現性のない論文は、再現性のある論文よりも頻繁に引用されているという話があるようです。
以下DeepL翻訳
追試失敗の論文がでてもなお、追試失敗したことに触れることなく原論文が引用され続けているというのでは、自浄作用が十分に働いているとはいえないでしょう。このこと自体が心理学の研究対象になって欲しいところです。
文化差の問題と、日本における改革の必要性
もともと、ある文化内における心理学研究の結果が、他の文化圏に当てはまるのかについては疑問が提起されていました。文化差があるであろうことについては、直観として多くの人が思うことでしょう。
その直観を裏付けるものとして、文化心理学研究の中には、西洋人と東洋人とでは行動様式に大きな質的な違いがあることを示したものがあります。
もっとも、文化差がみられるという文化心理学の知見自体、疑わしい研究実践(QRPs)によって作られた虚像であるかもしれません。これについては、今後の動向を見守るしかありません。
さしあたり文化差はあると仮定しますと、問題になるのは、英語圏での心理学改革に任せていては著しく不十分だということです。外国在住の人々を対象とした、外国の大学で行われた研究が追試によって再現されたり、されなかったりしたところで、それらの研究自体が、日本においては当てはまらない現象についての研究なのかもしれません。
ゆえに、外国で行われた研究の翻訳を紹介していただくだけでは困ってしまいます。日本においても質の高い研究が行われる必要があるのです。事前登録研究、オープンサイエンス、再現研究の促進などの改革が不可欠でしょう。ただ、改革に前向きな学者が複数いることは確認できますが、心理学界全体としてこうした改革に熱心であるのか、素人目にはよく分かりません。
以下は「再現性の危機」に対抗する基盤研究についてのページです。再現性の問題について言及してきた研究者たちの名前が並んでいます。はじめのが過去のもの、二つ目は現在継続中のものです。
※ 「再現可能性検証実験」のデータが見れないのが残念。
問題意識をもった研究者たちの試みが功を奏してくれることを願います。心理学は社会を論じるのにあたって重要な学問であり続けると思うからです。
2021年9月12日追記
一部の研究者が超人的活動をしてくれているという指摘がありました。
再現性の危機の受け止めについて
先ほどから何度もでてきている⼭⽥祐樹准教授は「⼼理学は科学でないと受け⽌められるところまで来ている」(日本経済新聞 2019年12月14日)と危機感をあらわにしているようですが、「科学ではないと受け止めているのが誰か」も一つの問題でしょう。
心理学に詳しい人の多くは「心理学は科学でない(又はそれくらいまずい状態)」という認識なのかもしれませんが、一般の人たちの多くは「しっかりした根拠に基づく科学である」と素朴に捉えているような気がします。「再現性の危機」もあまり知られていないと思うのです。山田准教授自身のツイートをみましょう。
上はドイツでの話みたいですが、日本でも似たような状況らしいとのこと。
あまり知られていないとは思います。それに「再現性の問題」は知っていたとしても、簡単な記事を読んだくらいだと「マシュマロテストが怪しくて、スタンフォード監獄実験がやらせだったんでしょ。知ってる、知ってる。再現性が4割っていっても、人間の心理が相手だからしょうがないでしょ」(※)レベルの認識かもしれません。
少なくとも私は、再現性の問題を知ったとき、「アリエリーも、カーネマンの本も、表情フィードバックも、分離脳実験も怪しいし、社会的プライミング効果もステレオタイプ脅威も再現性なし。君が面白がっていた自由意志信念と不正行為との関連も、マクベス効果も、オキシトシン点鼻薬の信頼性向上効果も再現できなかったんだよ! まだまだあるよ! 次はねぇ……」など言われるとは予想できませんでしたよ。
たまたま読んだ心理学の入門書に疑わしい研究実践についての項目があって、気になって調べてみた結果、ようやく深刻さに気づいたわけです。
ただ、この深刻さは知ることができて良かったです。特に分離脳研究やカーネマンの本が怪しまれていることは、早めに知ることができて良かった。
私の場合、心理学自体は健全化しつつあり、年々信頼性を増しているという認識は変わりませんでしたので念のため。有名研究が覆されていることと信頼性が増していることは表裏一体でしょう。
※ 2021年9月12日追記
このままだと誤解を誘発しそうです。心理学分野の論文で再現性があったものが4割以下に過ぎないとよく言われますが、「ほぼ再現できた」も含めれば47%、オリジナルと追試をあわせることで効果の有意性を保つことができたものを合わせると68%だったようです。前回の記事でも言及したものですが、貼り付けます。
また、「再現性があったのは4割以下」という論文自体にも誇張があったという指摘もあります。
インパクトのある研究が再現性に失敗しているので分野全体が怪しい印象を与えかねませんが、そもそも研究自体が膨大な数行われていることも考慮すべきでしょう。それに、「キャッチーなモンを出したもん勝ち」という側面があったとするのなら、インパクトのある研究ほどもともと怪しいということです。地味で目立たないが常識的な成果については、ある程度の信頼をおいてもいいのかなと思います。追試してほしいですが(ただ、追試というのは素人が思うよりずっと大変な作業みたいです)。
素人疑問について
今までは心理学研究について色々と疑問が浮かんでも、「専門家の言うことだから深い洞察の上でなされているのだろう」と考えてきたのですが、それも専門家まかせの無責任な態度だったかもしれません。何事も盲信はせずに、批判的な視点を忘れないことが重要だなと反省しました。
先日ある人にマシュマロテストの話をしたら、怪訝な顔で「なにそれ? オカルト?」みたいな反応をされました。こういうごく普通(?)の感性を持っておくことも重要だなぁと。(念のため「そういう説があったんだけど、あまり再現性がないと分かったようだ」と伝えておきました。)
その他、P-ハッキングやHARKingなどのQRPsの問題を措くとしても、一般書などを読んでいますと、「この研究結果が正しいとしても、ここまで強い結論が導けるものなのかなぁ」と誇張を感じることは結構あります。
ただ、自分の知らない分野については専門家集団の共通見解を尊重することこそがリテラシーの一つであるとは未だに思っているところです。盲信と批判的思考でバランスをとるのは難しいだろうなとも思います。
いろいろと書いてきましたが、心理学とはあまり関りのない領域でも、再現性の問題や、疑わしい研究実践は存在しているでしょう。心理学が危機を乗り切ることができたなら、その経験は他の分野においても活用できる共有財産になるような気がします。
その他、学術の動向(22年6月追加)
行動経済学に関しては、ウォルマートの行動科学研究のリーダーであるJason Hrehaさんが2020年に書いた記事「行動経済学の死」が話題になりました。
これは再現性の話とはちょっと違うのですが、ナッジの政策効果が従来言われていたよりもずっと低い(平均8.7%の影響と言われていたが、実際は1.5%程度。介入するより別のアイディアを用いた方がいいだろう)というところには驚かされました。
ただ、Hrehaさんは言い過ぎという指摘もあったり、
また、日本の研究者有志によって、シンポジウム「「行動経済学の死」を考える」が開かれていたようです。
経済セミナー2022年7月号では再現性特集が組まれており、問題意識は共有されてきていることが伺えます。
消費者心理学においても、多くの研究に再現性がみられないことが明らかにされているようです。
以下の論文では、再現に成功した研究、失敗した研究の実例をあげつつ、消費者行動研究の再現プロジェクトも紹介されています。
元木康介、米満文哉、有賀敦紀(2021年3月)「消費者行動研究における再現性問題と研究実践」消費者行動研究』Vol. 27 No. 1・2 号https://www.jstage.jst.go.jp/article/acs/27/1_2/27_202103.002/_pdf/-char/ja
消費者心理学も心理学ということで、基本的には心理学一般が抱えている問題を共有しているものと思われます。
神経科学も、実は心理学並みに問題を抱えているという話もあります。これについては本記事で何度も登場していただいた神谷之康さんのツイートを眺めていて知りました。一部をまとめたのが以下の記事です。
【私が書いた関連する記事】(宣伝)
・超有名な「ミルグラム実験」については、複数の追試実験で再現に成功しています。実は日本での追試研究もあり、これまた再現成功。というわけで、追試失敗の例には挙げませんでした。
……ただ、ミルグラムの手によるオリジナルの研究にはデータ改竄疑惑などがあり、例えば『服従の心理』の記述はそのまま受け取るわけにはいきません(わたくしこの本が好きだったんですが……)。
また、追試成功を鵜呑みにできるかも微妙なところ。そもそもオリジナル研究と同じ電撃上限値450V設定での実験は今や倫理上できていないこと、実験の設計的に被験者にはお芝居だとばれている疑惑があること、過去の追試研究はQRPsを免れているのか疑問であることなど問題があります。
社会心理学の目玉と言えるほどの重要実験ですから、私が疑問に思っていることについては以下で詳しくまとめました。
また、ミルグラム実験が、本当に「権威に対する服従の心理」を明らかにできるような設計になっているのかも疑いの余地があります。普遍的な教訓を引き出せるような実験だったのかについてはこちらで書きました。
・再現性の問題一般については、過去に簡単に解説しました。研究結果に再現性がみられない理由が「時代と地域の違いによる人間心理の差」に由来していればいいのですが、実際は疑わしき研究実践(QRPs)に原因があるとみられ、ゆえに「心理学の危機」とも称される事態になってしまったのです。
・私自身も心理学の研究について紹介する記事を書いているのですが、再現性のあるなしなどについて確認できたときには追記したいと思っています。後知恵バイアス、基本的帰属錯誤などについてはとりあえず再現性が確認されたようなので、その旨を追記しておきました。
・西洋人と東洋人においては、さまざまな行動様式に質的に大きな違いがみられるという研究について簡単に解説したものです。再現性が認められるといいなとは思っていますが、まだ分からず。
・心理学は、同じ分析法を異なるデータに用いた場合に結果が再現されるかという「再現性の問題」(本記事の主題)の他に、同じデータを異なる分析法で解析した場合にほぼ同じ結果が得られるかという「頑健性の問題」、そもそもその研究によって得られた知見が一般化できるかという「一般化可能性の問題」を抱えています(その他、「再生性」も問題になりえるよう)。
「一般化可能性の問題」についても先ほど記事を公開しました。
この記事では表情フィードバック仮説大規模追試のその後の経緯についても書いています。
追記・修正等について
若干の追記と修正を行いました。2021年9月12日
追記と修正を行いました。2021年11月3日
多くの方にご覧いただいているようです。ありがとうございます。記事へのご指摘もいただきまして勉強になります。不十分ではありますが、いくつか誤字脱字の修正と追記を行いました。
なお、見出し画像は以下のように修正を施しました。
・宣言効果 → 宣誓効果
・プライミング効果(カーネマン) → 社会的プライミング効果
疑わしいとされているのは、「プライミング効果」と呼ばれている効果の中でも、「社会的プライミング効果」です。また社会的プライミング効果はカーネマンのベストセラーでとりあげられているものの、カーネマン当人による実験というわけでもないので、「(カーネマン)」の部分は外しました。
・『ファスト&スロー』→ 『ファスト&スロー』(カーネマン)
若干の修正と内容追加を行いました。2022年6月2日
・noteの記事表示の仕様変更に合わせて引用形式を変更。
・「パワーポーズ仮説」、「自我消耗仮説」を項目として追加。
・「その他、学術の動向」という項目を追加。
・【私が書いた関連する記事】にミルグラム実験関連の記事二つと一般化可能性の問題の記事を追加。
・その他、微修正。
・上記修正内容に応じて見出し画像を変更
・項目を追加すると、ただでさえ読みやすいとはいえない記事がいっそう読みにくくなってしまうと懸念していたのですが、そうしたデメリットよりも、情報が一記事に集約されることのメリットを優先することにしました。
若干の修正と内容削除及び追加を行いました。2022年8月18日
・本論に入る直前と、「顔面フィードバック仮説」「分離脳実験」「ステレオタイプ脅威」の部分に若干の追記を行いました。
・見出し画像も若干変更しました。4割程度は再現できていることを追記したのが大きい変更です。「心理学の全てがデタラメかのような印象を与えかねない」という指摘があったのですが、多少は緩和されればなと。この記事単独でここまで伸びるという事態は想定していなかったのでスミマセン。
・昨日、ある方がこの記事をとりあげて下さったようで、たくさんの人にアクセスいただいています。ありがとうございます。ご指摘してくださった方もいますが、この記事自身がキャッチーだからこそ広まりやすい面はあるのでしょう。キャッチーゆえに広まった研究ばかり並べているので、これは避けがたいのかもしれません。
シャイなのであまり言及こそしませんが、ツイッターなどでみなさまの反応はみてみました。この記事から何を読み取るかはそれぞれだと思いますが、何かしらお役に立てれば嬉しいです。
ちなみに個人的には学問としての心理学が無くなると、素人断言型の俗流心理学による無法地帯が拡大するだけだと思うので、心理学界の健全化には期待しています。それに健全化の動きがあるからこそ、この記事のような失敗事例が可視化されたのだと思っています。そして、実際にそう読んでくださった方も多くいるようです。
さて、今まで記事の頭の方で、「再現性などが疑われており、かつ、千回以上引用されている研究を整理したもの」としてSNS上でよく紹介されている某サイトへのリンクを貼っていました。しかしどうもこのサイト、Sci-Hubという著作権的に問題のあるサイトから何度も引用をしているようです。リスクは小さくしておきたいので、削除しておきました。
Sci-Hubは学問版漫画村などとも言われておりながら支持者も多いという論争的な有名サイトらしいのですが、存在さえ知りませんでした。ご迷惑おかけします。
追記が増えて可読性は低くなるばかりですが、今回も有益だと思われた情報の追加を優先しました。急ごしらえで編集をしたので諸々不具合があるかもしれません。
若干の追記と修正を行いました。2022年8月19日