サプライズと期待外れが行動を変える #研究コラムVol.5
才能研究を拡張するキーワード
前回の研究コラムでは、「学習」をテーマに、行動の維持や中止に関する理論を紹介しました。心理学の世界では、学習は経験によって行動が長期的に変化することを指します(渡辺, 2013など)。そして、行動の結果として報酬(うれしいこと)が増えたり、罰(イヤなこと)が減ったりすると行動の頻度が増え、反対に報酬が減ったり罰が増えたりすると行動の頻度が減るという「オペラント条件づけ」の考え方が、学習を考えるときの基礎的な理論として使われていることを前回は紹介しました。
このような学習に関する理論は、行動に関する研究を進めていくにあたり、強力なツールとなります。こうした理論に注目しているのは、株式会社TALENTのTRC (Talent Research Center) で、才能を「動機づけられた、自分が価値があると認めている行動や思考」と定義して研究を進めているためです。才能の研究は行動の研究と捉えることができるのです。
今回は、学習についてもう一歩踏み込んだ学術知見として、どのようなときに上記のような学習が起こりやすいのかを、「報酬予測」をキーワードにお届けしたいと思います。
「うれしいこと」と「うれしさ」の違い
先に、学習(長期的な行動の変化)が起こるためには、報酬と罰が関わっているということを述べました。報酬予測の話をする前に、「報酬」と「主観的価値」の違いについて押さえて置こうと思います。
先の説明では「うれしいこと」「イヤなこと」という表現をしましたが、うれしいこと(報酬)が起きたときのうれしい度合いは、客観的で一定のものではなく、報酬の種類や個人の好み、文脈によって変わります(罰とイヤ度合い (?) の関係も同様です)。報酬・罰(うれしいこと・イヤなこと)が起きたときのうれしい度合いやイヤ度合いのことを、学習心理学の研究では「主観的価値」と呼んでいることが多くあります。
具体例とともに見てみましょう。たとえば、AさんBさんの2名に、同じアルバイトの対価として1万円をそれぞれ渡すとします。Aさんはお金にはまったく困っていない大富豪で、Bさんは日々の生活がやっとの給与水準だとします。このとき、一万円札をもらったときのうれしさ(主観的価値)は、おそらくBさんのほうが高くなることでしょう。一万円という報酬の金額自体は誰から見ても同じ数字ですが、受け取ったときの主観的なうれしさは、受け取る人の状況などによって変わってきます。
もうひとつ例を挙げましょう。マラソンを走りきったCさんがいます。Cさんに、完走のご褒美に冷たいオレンジジュースをあげるとしましょう。おかわりが無限にできるものとして、1杯目、2杯目、3杯目、それ以降のうれしさ(主観的価値)はそれぞれどうなるでしょうか?乾いた身体に1杯目は最高にうれしく、2杯目もうれしい、3杯目はそこそこ、5杯も飲むともう十分、となるのではないでしょうか。このとき、渡しているオレンジジュース(報酬)は質も量も変化していませんが、主観的価値は杯数を重ねるにつれて減っています。このように、同じ報酬を繰り返し受け取ると主観的価値が下がっていく現象はさまざまなところで見られ、特に経済学の分野では「限界効用逓減の法則」と呼ばれています(経済学ではうれしさのことを、主観的価値と近い意味で「効用」と呼びます)。
画期的な「レスコーラ=ワグナー・モデル」
報酬と主観的価値の考え方を先の学習の理論に重ね合わせると、単に報酬(罰)が得られるかどうかだけではなく、それを得たときの主観的価値も考慮に入れる必要が出てきそうです。報酬の有無だけでなく、うれしさの度合いも行動の維持や中断に影響してくると考えられるためです。そして、主観的価値は個人の状態や文脈によって変わってくるという複雑な性質を帯びています。
こうした行動と報酬、そして主観的価値を考慮に入れた理論の先駆けとして「レスコーラ=ワグナー・モデル」と呼ばれているものがあります (Rescorla & Wagner, 1972)。横文字でカッコいい名前は、提案者(レスコーラさんとワグナーさん)の名前に由来します。詳しい解説は他の文献に譲るとして、ここでは概要をお伝えします。
学習の理論では、行動の維持や中止、変化に関心があるため、次の行動が増えるのか減るのかを予測する指標が重要になります。レスコーラ=ワグナー・モデルでは、この指標を「報酬予測」と置いています。報酬がたくさん得られることが予測されればその行動は促進されますし、報酬が十分でないと予測される場合は控えめになっていきます。
このモデルのポイントは、「報酬予測誤差」を組み込んで、どのようなときに学習が進むのか、つまり行動が促進・抑制されやすいのかを定式化したところにあります。人間を含む動物は「これくらいの報酬が得られるだろうな」と予測して行動を起こしますが、あくまでも予測なので外れることがあります。思った以上の報酬が得られることもあれば、期待外れのときもあります。この差分が報酬予測誤差です。
そして、レスコーラ=ワグナー・モデルでは、この報酬予測誤差を小さくする方向に学習が進むとされています。予測よりも得られた報酬が大きい場合、次に同じような場面に置かれたときには、予測が上方修正され、予測した報酬が得られる行動の頻度が増えると考えられます。一方、予測よりも得られた報酬が小さい場合、報酬予測を下方修正して、行動の頻度を控えめにするといった変化が起こるでしょう。また、プラス方向とマイナス方向どちらの場合でも、誤差が大きいほど行動の頻度が変化しやすい( = 学習が起こりやすい)と理論化されています。
レスコーラ=ワグナー・モデルについてここまでの話をまとめると、次のようになります。まず、行動を起こすことで、事前の報酬予測と、実際の報酬予測のズレ(報酬予測誤差)が検出されます。このズレを小さくする方向に次の行動の報酬予測が修正され、報酬予測が大きい場合には行動の頻度が高まり、反対に小さい場合には行動が行われにくくなります。こうして新たな報酬予測のもとに行われた行動の結果、また新たな報酬予測誤差が検出され、次の行動の報酬予測につながっていきます。
サプライズプレゼントは効果的
レスコーラ=ワグナー・モデルの画期的なところは2点あると思います。
まず、報酬予測誤差というアイディアを組み込んで、主観的価値の定式化を試みていることです。日常的な言葉に置き換えると、報酬予測誤差は「サプライズ」と「期待外れ」といった表現になると思います。予測よりも実際の報酬が大きい場合はうれしいサプライズとして受け取られるでしょうし、反対に予測よりも報酬が小さい場合は期待外れといった状態になることでしょう。また、サプライズ / 期待外れという表現にするとわかりやすいのですが、客観的な報酬の種類や量ではなく、主観的価値を反映したものです。さらに、このサプライズや期待外れが学習、つまり行動変化を導くという点も、日常場面に照らして納得がいくものではないでしょうか。サプライズプレゼントをもらったら、もっとこの友達を大事にしようと思うでしょうし、頑張って働いたのに報われなかったら次は引き受けないようにしようと考えると思います。
もう一つの画期的な点は、予測誤差が次の報酬予測に影響し、その報酬予測がまた新たな報酬予測誤差を生むという、時系列の影響を含んでいるところです。これは先に述べた、主観的価値がその人の状態や文脈によって変化することとつながってきます。過去の経験や行動がまったく同じ人間同士は存在しないことを考えると、報酬予測も人によってそれぞれ異なるはずです。知らない人に話しかけて痛い目にあってばかりの人は人付き合いに慎重になるでしょうし、話しかけた結果親切にされた経験が多い人は人付き合いにオープンになるのではないかと思います。
このように、シンプルな報酬と罰の学習理論に、報酬予測とその誤差というアイディアを加えることで、一気に広がりが出るところが理論として強力なところだと思います。
期待値を念頭に置いて研究する
今回は、学習のメカニズムとして、報酬予測とその誤差に注目した理論を紹介しました。報酬予測という言葉は、日常・ビジネス場面の言葉に置き換えてみると、「期待値」といった表現に近いかもしれません(統計学の「期待値」ではなく、あくまでも主観的な期待の高さを現す日常語として置いています)。人は何か行動を起こすときにはほぼ必ず、起こり得る結果について期待を抱きます。「才能発揮」について考えるときも、その人が期待する状態がどのようなものなのかを考慮に入れる必要があるでしょう。冒頭で才能の研究は行動の研究と述べましたが、報酬予測というアイディアを先人にならって取り入れることで、さらに才能発揮の実態に近づけるのではないかと思います。
文献
渡辺 茂(2013).学習 藤永 保 (監修).最新 心理学事典 平凡社
Wagner, A. R., & Rescorla, R. A. (1972). Inhibition in Pavlovian conditioning: Application of a theory. Inhibition and learning, 301-336.