ミルグラムの服従実験と多数の追試実験は信頼できるのか?【心理学】
超有名な心理学実験「ミルグラムの服従実験」について、二つの記事に分けて検討していきたいと思います。この記事では、そもそも真に受けてよいような実験だったのかという「信頼性の問題」について扱います。
オリジナルのミルグラム実験については、その信頼性について重大な問題が指摘されているようです。多数の追試実験に関しても、果たして何をどこまで再現できたのかは細かく見た方がよいようです。また、信頼性の問題についてもないとはいえません。
なお、実験の手続と結果が信頼できるとして、そこからどのような現象がどこまで説明できるのかについては、「解釈の問題」として別の記事で検討する予定です。
◆
1 ミルグラム実験とは
1960年代に行われたスタンレー・ミルグラムによる服従実験は、社会心理学の中でも特に有名な実験です。「アイヒマン実験」とも呼ばれています。人間は、権威の命令とさえあれば、非倫理的な指示に対しても容易く従ってしまうことを示したものとされています。
まずは、ミルグラム実験の概要と結果をみていきましょう。
なお内容は、スタンレー・ミリグラム 山形浩生訳『服従の心理』河出書房新社 2012年を元にしています。以下『服従の心理』とあるのはこの本です。
実験の概要
被験者は、「記憶と学習に関する研究」への協力を依頼され、研究室にやってきます。研究室には実験者とサクラがいます。
被験者とサクラは、くじ引きによって、「先生役」と「生徒役」に分かれます。このくじ引きには仕掛けがあって、被験者は先生役に選ばれ、サクラは生徒役に選ばれると決まっています。
生徒役(サクラ)は、椅子に座らせられ、両手を縛られ、手首に電極を繋げられます。そして、単語の一覧を記憶するように指示されます。
先生役(被験者)は、「生徒が単語を聞き間違う度に電気ショックを与えるように」と、実験者から命令されています。電撃は15~450ボルトまで調節できるようになっており、生徒役が間違える度に15ボルトずつ電撃を強めていきます。
なお、実際には電気は流されません。この実験は、「先生役」こそが真の被験者だからです。電気ショックを与えろと実験者(権威)に命令された際の先生役の反応(服従するか等)を観察するのが目的になっています。
いざ先生役が電撃のスイッチを押すと、生徒役は痛がる演技をします。75ボルトでは呻き、120ボルトではっきり声に出して抗議し、150ボルトで実験を止めるように訴え、285ボルトでは苦悶の絶叫をあげるのです。
ここで先生役(被験者)が戸惑ったとしても、実験者は、実験を止めようとしません。先生役は指示通りに電撃を与えるようにと命令し続けます。
さて、先生役(被験者)は、命令に服従し続けるのでしょうか? という実験です。
実験の結果
実験はさまざまな条件の下で行われました。まずは有名どころである(と思われる)最初の5つをとりあげます。
実験1 遠隔フィードバック (被験者40人)
先生役と生徒役は、別室に分かれます。
生徒役の苦情は、音声としては聞こえません。
ただし、300ボルトに達すると、抗議者が壁を叩いているかのように実験室の壁がドンドン鳴ります。315ボルト以上になると、壁を叩く音が途絶え、
回答も表示されなくなります。それでも、実験者は電撃が450ボルトに達するまで実験を継続するように指示を出し続けます。
この条件で、先生役(被験者)が、実験者の命令を途中で拒否したのは、35%(14人)でした。65%(26人)は、最後まで命令に服従しました。
実験2 音声フィードバック(被験者40人)
先生役と生徒役は、別室に分かれます。
ただし、こちらの実験では、生徒役の苦情が壁越しにはっきりと聞こえてきます。この条件で、先生役(被験者)が、実験者の命令を途中で拒否したのは、37.5%(15人)でした。62.5%(25人)は、最後まで命令に服従しました。
実験3 近接(被験者40人)
先生役と生徒役は、同室にいます。
一メートルほどの距離はありますが、声も聞こえるし、姿も見えます。
この条件で、先生役(被験者)が、実験者の命令を途中で拒否したのは、60%(24人)でした。40%(16人)は、最後まで命令に服従しました。
実験4 接近近接(被験者40人)
先生役と生徒役は、同室にいます。
一メートルほどの距離はありますが、声も聞こえるし、姿も見えます。
違いは、生徒役の手首に電極は付けられず、電撃プレートに手を置いているときだけ電撃が流れるようになっている点です。しかも150ボルトになると、生徒役は手を置くことを拒否します。
そこで実験者は、先生役に対して、生徒役の手を無理やりプレートに押し付けるよう命令します。
この条件で、先生役(被験者)が、実験者の命令を途中で拒否したのは、70%(28人)でした。30%(12人)は最後まで命令に服従しました。
実験5 新ベースライン(40人)
この条件が特に有名です。
基本は音声フィードバック条件に即したものです。先生役と生徒役は、別室に分かれます。生徒役の苦情が壁越しにはっきりと聞こえてきます。
ただし、音声フィードバック条件と違うのは、生徒役(サクラ)は、自分の心臓に問題があることに言及するのです。実験前に「ウェストヘイブン復員軍人病院に何年か前にいたんですが、ちょっと心臓の具合が気になるんですと言われたんですよ」と話し、電気ショックを受けると「心臓が変だ。出してくれ!」などと叫びます。
この条件で、先生役(被験者)が、実験者の命令を途中で拒否したのは、35%(14人)でした。65%(26人)は、最後まで命令に服従しました。
「生徒役が“心臓が悪い”と言っているにも関わらず65%電撃を与えたのだ!」というわけで、実験5は特に有名です。
ミルグラム実験が語られるときには、「服従率65%!」などというように結果が一人歩きしがちです。
ただ、「近接」や「接近近接」での実験においては服従率はそれぞれ約4割、約3割という結果になっております。直接手を下す場合は拒否が多くなるのだなぁ、などと「いろいろ語りたくなる」ところです。
他にも、さまざまな条件で実験がされています。
実験15 二人の権威:矛盾する命令(被験者20人)
実験者が二人いて、一人が電撃を与えることを命じ、もう一人がそれに反対するという実験です。先生役(被験者)は全員が電撃を与えませんでした。
実験17 同僚二人が反逆(被験者40人)
先生役(被験者)の他に、もう二人「先生役」のサクラをつける実験です。二人のサクラが実験の途中で実験者からの命令を拒絶した場合、被験者たちの大半は、同僚とともに命令を拒絶するようになりました。
『服従の心理』においては、計18種類の実験が公表されています。
実験の設定によって結果が大きく変化していることから、「さまざまな教訓を引き出したくなる」ところです。
2 ミルグラム実験は信頼できるのか
さまざまな教訓をもたらしてくれそうなミルグラム実験ですが、いくつか重大な問題点が指摘されています。この記事においては、問題のうちから二つを取り上げます。なお、問題はこの二つだけではありません。
問題1 お芝居だとバレていた疑惑
問題の一つは、多くの被験者がミルグラムの実験がお芝居であると見破っていた可能性があるということです。
この可能性は、実験当初から指摘されていたようですが、軽視されてきました。私としても、こうした批判の存在は知っていましたが、ウソがばれてたなんていうバカらしいオチは流石にないだろうと思っていました。
しかし、ここ10年ほどの間に重要な研究が生まれていたようです。ジーナ・ペリーさん(ジャーナリスト・心理学者)の研究です。ペリーは4年をかけて存命中の実験参加者、参加者の親族、協力者、助手、この人たちの親族を追跡調査し、ミルグラム実験の問題点をいくつも発見しました。
成果は『Behind the Shock Machine』にまとめられているとのこと。
ペリーがみつけたミルグラムの助手であるTaketo Murataの報告書によれば、およそ半分の被験者が、実験は茶番ではないかと疑っていました。しかも、残りの半分は真に受けていたものの、真に受けていた人ほど実験には抵抗していたというのです。
今回も英文記事はDeepLに丸投げです。
以下も参照。
被験者は実験について以下のような疑問をもっていたようです。
こうして疑問の実例をみてみると、もしかして実験にはけっこう雑なところがあったのか? 人って簡単には騙せないものか? など、実験全体への疑いが湧いてきます。
ちなみに、ミルグラム実験が行われていた時期、アメリカでもっとも人気のあったテレビ番組の一つは、『キャンディッド・カメラ』というドッキリ番組だったようです。被験者の中には、ドッキリを疑った人もいたかもしれません。
以上の通り、ペリーは、被験者たちの多くが実験の嘘くささを見抜いていたと指摘しています。ただし、この点はミルグラムを弁護する側にも言い分があるので、そちらも見ていきましょう。
元が1960年代の実験ですから、ペリーはすべての元被験者のことを体系的に調査できたわけではありません。ペリーが持ち出す証拠もまた不十分なものです。
また、ペリーのような調査に基づくものではないにせよ、「ウソだとバレていた説」は実験当初から指摘されていました。その指摘に対しては既にミルグラムによる反論があります。ミルグラムは、実験一年後に行ったアンケ―トなどを用いて、被験者の過半数は実験を本気にしていたと書いています。
あれ……。過半数?
そうです。ミルグラム自身が提示したアンケート調査でさえ、回答者はけっこう実験について疑っています。
(1)学習者が苦痛な電撃を受けていると本気で信じた 56.1%(369人)
(2)疑問は抱いたが、学習者がたぶん電撃を受けていると信じた 24.0%(158人)
(3)学習者が電撃を受けているか確信がもてなかった 6.1%(40人)
(4)疑問は抱いたが、学習者がたぶん電撃を受けていないと信じた 11.4%(75人)
(5)学習者は電撃を受けていないと確信していた 2.4%(16人)
確かに(1)だけで過半数ではありますが、6割未満。ミルグラムは、(1)と(2)の合計である4分の3は信念のもとで行動していたし、本気で疑っていたのは5分の1だと言っています(5分の1でも多い気がします)。ですが、(2)の人も疑問は抱いているわけですよ。「疑問は抱いた」とか、「本物か確信をもてなかった」が4割を占めているのには注目したいところです。(『服従の心理』253頁「表7 信念に関する質問への回答」を参照)
なお、ミルグラムは、「被験者たちは、自分のしたことから目を背けるために、“本物だと信じていなかった”などと回答をしているのだ」という反論も行っています。「回答はあとづけの合理化だ」と言っているわけです。
被験者の回答を意地悪なくらいに疑っています。
この疑いには一理あります。確かに、人間は本心を言うとは限りません。そもそも自身の本心に気づいていないことさえあるでしょう。ミルグラムの言う通り、「回答者が本心を言っていない可能性」はあります。それを重視することこそが真理への道かもしれません。
ですが、そうなると、「(1)学習者が苦痛な電撃を受けていると本気で信じた」との回答もまた疑うべきでしょう。実験者への遠慮・同調・忖度や、権威の恐ろしさを証明するという実験の趣旨への共感、「あとづけの合理化」をしていると疑われることへの不安その他から、騙されたフリ・違和感を覚えなかったフリをしているのかもしれません。
これは、ある種の心理学実験が共通して抱えている難しい問題ではないでしょうか。ただ、話が大きくなりすぎるので、本記事では深入りしません。
ともかく、かなりの割合が嘘くさいと思っていた実験であった。真に受けていた人だけをみれば、命令には抵抗した。それが真実であるならば、ミルグラム実験をもって「権威に従順であるという人間の本質」を論じてよいものか非常に疑問です。
問題2 被験者への圧力とその隠蔽疑惑(データ改竄疑惑)
二つ目の問題は、極めて深刻です。
ミルグラム実験の重要なポイントは、被験者である「先生役」に対して、強制がなされていない点にあったはずでした。強迫されたり、従わなかった場合の罰が想定されたりしていないのに、それでも被験者は電撃が最大強度となるまで実験に協力し続けた。そうだからこそ、「権威の命令で誰しもアイヒマンになりうる」などという強烈な結論さえ引き出されるわけです。
しかし、現実のミルグラム実験においては、実験者のジョン・ウィリアムズは、ミルグラムの承認を得た上で、台本を大きく逸脱して被験者に圧力をかけたようなのです。
問題を少し具体的にみましょう。
ある被験者が「私はイェール大学の知識追及のために命令に服従しました」と答えたとします。実験者は「なるほど、研究という大義名分をちらつかせれば人は服従するのか」と気づきを得て、実験手法を変更します。次からの被験者には「君がスイッチを押さなければ研究全体がダメになるんだよ」という圧力をかけるのです。しかも、こうした事実は出版物の中に書いていません。
明示した実験の手順を外れて圧力をかけていたというのは、事実だとしたら極めて深刻です。「法則」の理解を目的とするために実験があるとするならば、ありえないやり方です。しかも、それらの事実を隠していたわけです。もはやデータの改竄に当たるでしょう。
ミルグラム実験は、服従率において男女差がなかったことも注目されていたのですが、これまた事実かどうか怪しいとされています。というのも、女性被験者に対しては男性被験者に対するものよりも強い圧力をかけていたとみられるからです。
これは本当に困ります。ミルグラムの書いていることには、データ改竄を含めた嘘が紛れ込んでいることになります。『服従の心理』でいえば、どこが信用でき、どこができないのか、現状、私にはほとんど分かりません。
近年では、ミルグラムの服従実験に関する未発表資料や記録を精査する学者が増えているようです。今後もさまざまな事実が明らかになっていくのでしょう。しばらくは様子見するしかなさそうです。
ただ、実験5、実験6の録音テープは紛失しているようです。実験5は、とりわけ引用されるところですし、再現実験の対象にも選ばれている部分です。
以上のことから何が言えるでしょうか。私としては、「オリジナルのミルグラム実験に関しては信頼できなさそうだなぁ」という印象を受けました。近年始まったという点検作業の進展を待つしかなさそうです。
3 追試実験(450V版と150V版)
問題が指摘されているミルグラム実験ではありますが、追試に成功しているというのが大きな強みです。ミルグラム実験本体には欠陥があったとしても、それによって追試実験の成果がダメージを受けるとは限りません。
どのような追試実験がなされているかを調べた範囲で記してみます。
上限値450V版(10か国とその他)
オリジナルのミルグラム実験において、電撃の上限値は450Vでした。この設定と同じく、上限値を450Vに設定した実験が行われています。
例えば、日本においても、1982年に小森さんという方が未発表の卒業論文においてミルグラム実験を追試したようです(450Vまで。服従率67.5%)。
上限値150V版(アメリカ、ポーランド、日本)
近年では、倫理規定によって、450Vの電撃を命令するような実験はできなくなったようです。後々実際には電撃を与えていなかったと知らされるとはいえ、致死的になり得るような電撃を命令されること自体も、「自分は致死的な電撃を与えるような人間だ」と突きつけられることも、被験者の精神に対する強い打撃となり悪い影響を残すからです。
ちなみに、この記事では詳しく論じていませんが、ミルグラム実験においては、被験者へのデブリーフィング(実験終了後の説明手続。実験の目的、予想される結果、なぜ騙す必要があったのかの説明を行う。目的の一つは被験者の心理状態の回復である)が、ミルグラムがすると説明していたものよりもずっと粗雑であったことも問題視されています。
というわけで、近年においては、オリジナルのミルグラム実験とは異なり、150Vを上限値とした実験が行われています。有名なものは、2つあります。
追試1 アメリカのジェリー・バーガーさんによるもの(2009年)
被験者の70%が、上限である150Vまで命令に従いました。
しかも、ほとんどの被験者は、150Vを超えて実験を続けるつもりでいたようです。
以下がバーガーによる論文です。
Burger, J. M. (2009). Replicating Milgram: Would people still obey today? American Psychologist, 64(1), 1–11.
追試2 ポーランドのダリウシュ・ドリンスキさんたちによるもの(2017年)
被験者の90%が、上限である150Vまで命令に従いました。
同時に生徒役に「女性」を選ぶという新たな試みも行ったようです。
なんと、日本においても150Vを上限とした追試が行われています。
追試3 日本 釘原直樹さんたちによるもの(2020年)
被験者は14人と、今まであげてきたものと比較すると少数です。
被験者の92%が、上限である150Vまで命令に従いました。
「共感や同情はみられるが、それはそれとして要求には従う」というところには、「まぁそうなりそうだよなぁ」という納得感があります。ただ、この実験結果から何がどこまで説明できるのかには議論の余地があるでしょう。
さて、以上が追試実験の数々です。続いて追試実験の意義と問題を見ていきたいと思います。
4 追試実験の意義と問題
追試実験に関しては、被験者に圧力をかけたであるとか、その事実を隠蔽しただとかいう嫌疑はかかっていないようです。数ある再現実験のすべてに故意による不正があるとも考えにくいでしょう。
「ミルグラム実験と同じような状況を用意した場合に、多くの被験者は実験者の命令に従って生徒役に電気ショックを与える」とまでは言えそうです。
この意味で、オリジナルのミルグラム実験が報告した服従現象のうち、少なくとも一部分については再現性があると言えると思います。
再現されたのが「一部分」である理由は、すぐ後に述べます。「思います」と、若干弱い言い方なのは、記事の最後でとりあげますが、QRPsの問題があるからです。
いずれにせよ、「服従現象はある程度みられるであろう」という知見を基に、解釈を議論したり、さらなる別の実験につなげたりしていくための材料として、追試実験には意義があったのではないでしょうか。
続いて、追試実験の問題点を見ていきます。
問題1 「ミルグラム実験は追試に成功している」と言えるのか?
まずは、すべての追試実験に共通の問題をみます。これは問題というよりは、限界という感じでしょうか。
第一に、追試実験は、オリジナルのミルグラム実験にまつわる疑惑を払拭するものではありません。追試に成功したとしても、ミルグラムの不正疑惑はそのまま残ります。
第二に、行われてきた追試実験は、オリジナルのミルグラム実験を部分的に再現したにとどまります。『服従の心理』にあるものだけで18種、未公表のものも含めると24種の実験のうち、一部(例えば実験5だけとか)が追試されているのです。再現された部分と、再現されていない部分とは区別しなければなりません。
というわけで、追試実験に成功しているという事実から、ミルグラムが行った実験の信頼性を導くことはできません。「追試成功!『服従の心理』に書いてあることは信頼できる!」とはならないわけです。
続いて、問題を一昔前の追試(上限値450V)と、近年の追試(上限値150V)に分けて考えます。
① 上限値450V版について
1968年から1985年の間に行われた再現実験を引いて、「ミルグラム実験はさまざまな時期・場所において再現されたのだ」などと言われることがあります。ただ、先述した通り、よくみてみると、妙に服従率が低くでている実験も混じっているのです。服従現象の普遍性には異論もあるようです。
それにしても、服従率などのばらつきは何に由来するのでしょうか。当然の誤差なのか、文化差なのか、それともお芝居(演技)の質や実験手順の微妙な違いなど、もはや確かめることが困難なところなのか。後に述べるQRPsによるものだとしたら恐ろしいです。
② 上限値150V版について
最初に思い浮かぶのは、電撃の上限値を150Vに設定しておいて再現実験と言えるのか、という批判です。これはオリジナルのミルグラム実験が設定した上限値の「3分の1」でしかありません。倫理規定上しかたないとはいえ、これで再現実験になっているのでしょうか。
しかしながら、追試者たちは考えがあってやっています。というのも、オリジナルのミルグラム実験によれば、150Vまで電撃を与えた人は、その多くが450Vまで電撃を与えたのです。「150Vの命令に服従する人は、450Vの命令にも服従する」。そう考えてよいのならば、150Vを上限にした再現実験にも意味が出てきます。
追試者たちのこの発想には「なるほど!」と思わされます。
ただし、ここで嫌な予感が頭をよぎります。2の問題3で述べましたように、ミルグラムたちは被験者に対して圧力をかけていたのでした。そして、誰にどれだけ圧力をかけたのかはわかりません。
となれば、「150ボルトがノーリターン・ポイントである」という話を真に受けて良いのか疑問です。150ボルトまでスイッチを押した人たちに対しては、「チャンスだ。この人なら最後まで服従してくれる」と考え、圧力を強めた可能性もあるわけです。「ミルグラムたちがそんなことするわけない」などとは、もはや言いにくいところです。追試の結果から、どこまでのことが言えるのかについては、議論の余地があるでしょう。
問題2 お芝居だとバレていないか
お芝居だとバレていないか問題は、追試実験においても発生していると思います。被験者が全てをお芝居だと確信しているかはともかく、「違和感を覚えた」とか、「戸惑いを感じた」という可能性はあるでしょう。
これは何の裏付けもない私の感想でしかありませんが、21世紀に入ってからの追試については、「被験者たちは変に思わなかったのかなぁ」と思います。(今思えばの話です。バレてる説を真面目に検討するという発想は、つい最近までありませんでした。)
今時、学習の実験において電気ショックを用いるというのは、まともな大学がやることとはとても思えません。お芝居だとは思わずとも、裏で相当念入りな安全策が講じられているだろうとか、被害が生じてもしっかり保障はされるんだろうとか、そうでなきゃ裁判沙汰だもんなとか、被験者は色々と推測してしまいそうです。「深刻なことにはならないだろう」と思った上で電気ショックのスイッチを押しているのならば、服従率が高く出たところで、オリジナルのミルグラム実験が示したと思われていた意味での「権威と服従の恐ろしさ」を示すことにはならないでしょう。
「実験を疑っていたほど服従率が高い」らしいのも厄介です。服従率が高く出たとしても、それはお芝居の現実味のなさを示しているだけかもしれないのですから。
問題3 QRPsの問題はないか? P-ハッキング・出版バイアス他
どこで書くか迷ったのですが、触れないわけにもいかない重要問題があります。心理学の広範囲を脅かしている疑わしい研究実践(QRPs)の問題です。
最近では著名な心理学研究が次々追試に失敗していますが、その大きな理由はQRPsにあると言われているのです。
QRPsの具体例としては、p-ハッキング、HARKing、出版バイアスなどがあります。これらがどのようなもので、どうして問題なのか、また対策として何が考えられるのかについては、過去に私なりのまとめを書きました。
ミルグラム実験の追試実験は、この記事でとりあげなかったものを含めて沢山あるのだと思います。しかし、追試はただなされればよいのではなく、QRPsを避けている必要があります。そこで問題となるのが、QRPsが大きな問題とみなされるようになったのは、10年ほど前に「再現性の危機」が訪れて以降だということです。
最近の心理学界においては、信頼性革命(credibility revolution)とも言われる改革が起きていて、事前登録研究、レジスタード・レポーツ、オープンサイエンスを促進するなどしてQRPsへ対応しようとしているようです。こうした対策がなされた上での追試だからこそ、結果を信頼できるのであり、「追試に成功した過去があるからその実験は信頼できる」とは言えないのです。
この点について、私が共感したのは、社会心理学者である平石界さん(慶應義塾大学文学部教授)の意見です。
QRPs対策がなされていない追試実験についてどこまで信頼していいのか、私には正直わかりません。
pハッキングが行われていたのかどうかを論文から読み取ることができる場合なんてあまりないでしょうし、出版バイアスの有無や強弱を後から確かめるなどというのは現実味がないように思えます。
というわけで、過去の心理学の知見の信頼性についてどう判断すればいいのか、私にはよく分かりません。「QRPs対策が施されたしっかりした追試結果」が出るのを待つしかないのでしょうか。
追試実験の数々から何を読み取るべきなのか、これについても私にはよく分からなくなってしまいました。研究は途上ってことなのかなぁ?
2022年8月18日追記
引用していた資料のうち、「このリンク先は著作権的に信頼していいのかなぁ」と疑問に思ったものを削除しました。関連して見出し画像も若干修正。申し訳ありません。素人が英語圏の資料を自力で探すのは難しい……。皆様も何かお気づきの点があればご指摘ください。
2022年8月20日追記
ミルグラム実験も含めて、暴力と集団心理に関しては以下の本が優れているようです。私は未読なのですが、紹介しておきます。
以下は紹介記事です。