心理学の知見は一般化できるか 一般化可能性の問題【心理学】
だいぶ背伸びしてこの論文を読んでいました。
平⽯界・中村大輝「⼼理学における再現性危機の10年―危機は克服されたのか、克服されうるのか―(⾮短縮版)」2022年
平石界・中村大輝「心理学における再現性危機の10年―危機は克服されたのか,克服され得るのか―」2021年 科学哲学 54-2
おもしろいです。非常に充実した内容で大変勉強になります。
この記事では、心理学研究の「一般化可能性問題」に焦点を当てて、論文のごく一部を、大雑把に、私の関心を引いた部分を強調する構成で紹介していきたいと思います。
論文の素人紹介記事ですので、品質には期待せず、ざっくりと読んでいただければ幸いです。興味を引かれたら原論文を当たってください。
一般化可能性の問題
一般化可能性(Generalizability)の問題とは、心理学研究の知見は、従来主張されてきたほど一般化できないのではないか、という問題です。
ある研究が示した知見は、その研究の被験者の属性(人種、国籍、文化)や、実験条件(刺激の種類など)を越えては適用できないかもしれません。
話自体はとても素朴なものなのですが……
あまりに素朴なだけに
「一般化できるかどうかって、やっぱり問題なんだ!」
と「逆に驚き!」感が否めません。
私が読んできた著作やら記事やらの多くでは、心理学の研究結果は当然のように一般化されていました。私なんかは「研究者たちがこう言うからには当然ある程度は一般化できるということなんだろうな」と無批判に受け取っていたのですが、これもまた良くない思考停止だったようです。
さて、心理学は一般化可能性問題とは別に「再現性の問題」や「頑健性の問題」も抱えているのですが、そちらの問題に向き合っているうちに、一般化可能性の問題がよりはっきりと見えてきたようです。
1 再現性の問題から一般化可能性の問題へ
再現性(Replicability)の問題とは、同じ分析法を異なるデータに対して用いた場合に、ある程度同じ結果が再現されるかという問題です。
ある研究に再現性がなかったからといって、直ちにその研究に問題があることにはなりません。再現できなかった理由が「人間の心理は時代や地域によって違うから」と言えそうならば、別の研究への糸口になりそうです。
しかし、再現性の危機が明らかにしたのは、「研究者自らノイズを拾いに行ってしまっていた(疑わしい研究慣習 QRPs)」ことでした。ノイズからその時代や地域による人間心理は見えてきません。
しかも、近年の「信頼性革命」以前に行われてきた研究は、追試研究も含めてQRPsの影響下にあります。追試研究も疑いの対象である以上、多くの追試研究に支えられてきた研究だからといって、十分には信頼できないのです。
というわけで、重要な発見とされてきた心理学研究は本当に再現性があるのかを確かめるため、改めて事前登録済の大規模追試が行われています。
「顔面フィードバック仮説」のケースをみてみましょう。
顔面フィードバック仮説とは、表情を作ると、それを原因として表情に対応した感情が生起するという仮説です。私は別記事で「表情フィードバック仮説」としてとりあげたことがあります。
さて、事前登録済大規模追試の結果は、統計的な有意な効果はみられないというものでした。
Wagenmakers et al., 2016
「Registered Replication Report: Strack, Martin, & Stepper (1988).」
https://psycnet.apa.org/record/2016-58542-014
しかし、大規模追試で否定的な結果が得られたといっても、「顔面フィードバック仮説は誤りだったのだ」という話にはなりませんでした。オリジナル研究の第一著者から、追試研究について批判が出たからです。
批判によれば、大規模追試研究にはいくつか欠陥がありました。例えば、「被験者がカメラを向けられていたこと」や、「実験対象が顔面フィードバック仮説を知っていた可能性が高い」という点で、オリジナルの研究とは異なっていました。また、実験に使われた漫画はオリジナル研究と同一のものを使っていたのですが、こちらはもはや30年前の漫画になっていて古すぎたかもしれません。
つまり、追試に失敗したのは、きちんとした再現実験になっていなかったせいであり、オリジナル研究と同じとみなせるような実験ができていたならば、実験は再現されていたかもしれないというわけです。
これらの批判には一理あり、「著者による後だしの負け惜しみだ」で済ますのは学問的ではありません。批判に応えるべく、再び大規模追試実験(Many Smilesプロジェクト)が行われることになったようです。
とはいえ、この再々追試で議論は決着するのでしょうか。次の追試が顔面フィードバック仮説に否定的な結果を出したところで、またもや「オリジナル研究と仕様が違ったせいだ」という話が出てきそうです。再々々追試、再々々々追試が必要になるだけかもしれません。
こうなってくると、研究に再現性があるかないか、という論争はなかなか収束しそうにありません。
ただ、それでも大規模追試実験から見えてくる景色がありました。
というのも、仮に若干の仕様の変更で効果がなくなってしまうとするならば、顔面フィードバック効果は(存在するにしても)条件がそろった限定された環境でのみ発生するものだったことになります。
つまり、オリジナル研究から、「表情を作ると、それを原因として表情に対応した感情が生起する」などという一般的な主張をすることには、そもそも無理があったと言えるでしょう。
これこそ一般化可能性の問題であり、再現性の問題とは別種の問題です。仮に再度の大規模追試で「顔面フィードバック仮説」に再現性が確認されたとしても、その知見が一般化できるのかどうかは別途問われねばなりません。
カメラの有無、漫画の古さなどによって結果が違ってくるというならば、全く別ジャンルの漫画ならどうなのか。自宅で読むのと大学で読むのでは違うのか。漫才や映画ならどうなのか。日本人大学生にも当てはまるのか。いくらでも疑問は湧いてきます。
それらの疑問に答えられていない研究は、仮に再現性があったとしても、「表情を作ると、それを原因として表情に対応した感情が生起する」という一般論を引き出せるような研究ではないでしょう。そもそも「顔面フィードバック仮説」などと呼んでいたのが誤りだったということになりそうです。
平石・中村論文の以下の指摘は、なかなか強烈です。
もちろん、このような一般化可能性の問題は、顔面フィードバック仮説にのみ当てはまるものではありません。
それどころか、ほとんどの心理学研究について一般化可能性問題が立ちはだかっています。重要な指摘だと思ったので、長く引用します。
「得られた結果の一般化可能性が(ことごとく)過大評価されている恐れがある」とは、これもまた強烈な指摘です。
分析に組み込むべきなのに組み込まれていない要因は、上記の引用文中で例示されている「刺激の中身」「参加者の募集方法」「実験室のセッティング」だけではありません。
私も以前から随分と気になっているのが、文化差の問題です。心理学研究のサンプルが、「西洋の、教育を受けた、工業化した、豊かな、民主的な文化にいる人」に偏っているという問題は、指摘されて10年経過しても大きくは改善されていません。欧米圏では、サンプルの属性を明示するということさえ徹底されていないようです。
2 頑健性の問題から一般化可能性の問題へ
頑健性(Robustness)の問題とは、同じデータを異なる分析法によって解析したときに、ほぼ同じ結果が得られるかという問題です。
オープンサイエンスが広まるにつれて、手元のデータに対して、可能な分析仕様を全て試してみることさえ可能になってきました。
ほとんどの研究仕様が同様の結論を示すのならば、その結論は妥当性が高いということになりそうです。
頑健性をテストする手法にもさまざまあり、平石・中村論文では、マルチバース分析(multivers analysis)や仕様カーブ分析(Specification Curve Analysis, SCA)、Many Analystsアプローチを紹介した上で、それぞれが使用された実例と限界について詳しく書かれています。
ここではMany Analystsアプローチに関する話の一部だけ紹介します。
Many Analystsアプローチとは、同じデータを多数の研究者に分析してもらうことで仕様のバリエーションを増やそうとするものです。
このアプローチによる研究(Schweinsberg et al., 2021)によって、頑健な研究を行うことの難しさが浮き彫りになりました。
研究の概要はこちらです。
簡単に言うと「アカデミックなオンラインフォーラムのテキストデータ」を材料にして、複数のチームが2つの仮説を分析することになったということです。
1つ目の仮説は、「ディスカッションにおける⼥性参加者の数が多いほうが、⼥性が積極的に会話に参加する傾向がある」というもの。
同じデータから分析をするのですから、どのチームも同じ結果を報告してもおかしくありません。ところが、結果はそこそこ割れます。ただ、こちらは一応「仮説を支持する方向で有意」とする報告が優勢ではありました。
2つ目の仮説は、「地位の⾼い参加者は、地位の低い参加者よりも、より雄弁である」というもの。
こちらはかなり問題で、なんと結果が真っ二つに割れてしまいます。
同じデータを渡して専門家に分析させたら、仮説の真偽が真っ二つに分かれた。穏やかな話ではありません。
このばらつきの原因は、仮説中にある「発言者の地位」や「雄弁さ」をどう解釈するか、分析チームによって判断が分かれたことにあったようです。
「発言者の地位」といっても、職位(教授、ポスドクなど)、執筆した論文の被引用数、博士号の有無など考慮材料は色々あります。「雄弁さ」にしても、単語数、文字数、一コメント当たりの平均文字数などのどれではかるべきか定かではありません。
多義的な解釈を許す仮説は、研究仕様について研究者の自由度が大きく、それが結果の大きなばらつきをもたらしてしまうのです。こんなことでは、どのチームがだした結果についても信用することができません。
では、仮説をもっと明確なものに変更すればどうでしょう。「高い地位」ではなく「大学教授」に、「雄弁さ」ではなく「書く文字数」に限定してしまえば、分析チームが複数あっても結果のばらつきは小さくなるはずです。
しかし、このようにした場合、分析対象とされるのはあくまで「教授はポスドクよりもアカデミックなオンラインフォーラムで書く⽂字数が多い」といった仮説であり、「地位の高い人ほど雄弁である」という仮説ではありません。仮に前者の仮説が正しいとしても、そこから後者の仮説の正しさを導くことはできないのです。
多義的な仮説だと得られた結果が頑健ではなく信頼しがたい。明確な仮説だと、得られた知見が頑健であるが一般化しがたい。
言われてみれば当たり前のことなのですが、頑健性を確かめるためのMany Analystsアプローチによって、常識的かつシビアな現実が改めて突きつけられたと言えるでしょう。
Schweinsberg et al., 2021「Same data, different conclusions: Radical dispersion in empirical results when independent analysts operationalize and test the same hypothesis」
「再現性の問題」「頑健性の問題」のどちらも大きな問題です。しかしそれを越えた先には、「一般化可能性の問題」というさらに大きいかもしれない問題が聳え立っています。
では、心理学はどう進めばよいのか…。
これについても平⽯・中村論文では提案がなされています。私はまだ咀嚼しきれていませんが、心理学が骨格のある学問になるためには重要なんだろうなぁという指摘の数々でありました。