【#2】AI Agentに実装する感情理論

Yuki

2024年9月15日 20:28

1. AI Agentに実装する感情理論

こんにちは、大学院生のYukiです。

第二回目の内容として、AI Agentsへの感情値の設定について取り上げます。

現在自立生成型AI Agentsの研究の中で、どの感情理論を導入するか悩んでいます。今回の研究では既存のAI Agentsと違い人間の感情や性格の変動に重きをおいているため、慎重な調査が必要でした。

こちらでは自身の忘備録　兼　今後自作でAI Agentsを作成する方々に向けて感情理論の簡単な概略と、
それぞれ導入にあたっての長所と短所などの所感を簡単に記載します。

(2024/09/15：
暫くは自身の研究用に辞書のように使うため、図の挿入や数式化イメージ、Yukiの所感等は落ち着いてから行えればと思ってます)

(2024/10/18：

LLMに対して「心の理論」を実装したエージェントは、そうでないLLMエージェントや強化学習エージェントと比べて様々な競争で優位に立つことを示す実験結果が報告されています。https://t.co/mW4TMyC8lO
競争だけでなくエージェント間の協力においても力を発揮するとのこと。
— AIDB (@ai_database) July 17, 2024

心の理論を実装したLLMのパフォーマンスに関しての面白い記事を見つけたので共有。最近Multi-Agentに駆け引きやゲーム理論やらせる論文増えてきましたね。
どこかで紹介したいですが、前に読んだ論文ではAgents達にマーダーミステリーさせてました。)

2. 選定基準

Agentsに実装するにあたり、どの感情理論を導入するかの私なりの選定基準は以下になります。

数値化できること
言語化しやすいこと
複雑な感情変化に対応できること
複雑な感情表現に対応できること
他のAI研究と互換性があること

まず、数値化できることは言わずともがなMUST条件です。
さらに今回LLMを使用して感情値を扱うため、数値→言語にモジュール内で変換できることも必須条件です。

そして今回の研究で扱うエージェントは一回の行動ごとに感情変化を伴うため、その要件にスムーズに対応できる必要があります。

複雑な感情表現については多少優先順位は下がりますが、叶えたい要件です。

また人によってはこのようなAI Agents技術を映像認識、AItuber作成や音声起こしに使用を検討されている方もいらっしゃるかと思います。その場合は、そちらの技術との互換性を考えると良いかもしれません。

3. メジャーな感情理論の概要と解説

以下に調査した主要１７つの研究を記載します。比較レビューの為なるべく心理学方面から多くの文献を調査しましたが、以下で主要なものは全て抽出できているかと思います。

もし導入を検討する際は、元となる研究を読むだけでなくそれらをサポートする記事や論文、実際導入しているサービス、また近年の拡張研究の調査をすることをお勧めします。
また感情のデータ、数値化を行う際はその使用用途に合わせて自身でパラメータ、ラベルを追加することを推奨いたします。

感情理論にまつわる研究

Schachter-Singerの二要因理論 (1962)

概要：感情は生理的覚醒と認知的解釈の組み合わせで生じる。

感情の扱い：この理論では、感情を2つの主要な要素で扱います。1つ目は生理的覚醒レベルで、これは0（低覚醒）から10（高覚醒）などのスケールで数値化されます。2つ目は認知的解釈で、これは状況に対するポジティブ/ネガティブな評価を-5（非常にネガティブ）から+5（非常にポジティブ）などのスケールで表現します。これらの2つの値の組み合わせで感情状態を表現します。

長所：生理と認知の相互作用を説明できる。

短所：全ての感情経験を説明するには不十分。

エクマンの基本感情理論 (1992)

概要：喜び、怒り、悲しみ、恐れ、嫌悪、驚きの6つの基本感情が普遍的に存在する。

感情の扱い：この理論では、6つの基本感情をカテゴリカルに扱います。各感情は0（存在しない）から10（最大強度）などのスケールで強度を数値化します。例えば、ある瞬間の感情状態を [喜び:7, 怒り:0, 悲しみ:2, 恐れ:1, 嫌悪:0, 驚き:3] のようなベクトルで表現できます。複雑な感情は、これらの基本感情の組み合わせとして解釈します。

長所：文化を超えた感情の普遍性を示す。

短所：複雑な感情の説明が難しい。

Componential Emotion Theory (Ortony & Turner, 1990)

概要：感情は複数の要素（認知、生理、表現など）の組み合わせで構成される。

感情の扱い：この理論では、感情を複数の構成要素に分解して扱います。主な要素には、認知的評価（例：状況の望ましさ、-5から+5）、生理的反応（例：心拍数の変化、0から100%）、表情（例：笑顔の度合い、0から10）、行動傾向（例：接近度、-5から+5）などがあります。各要素を個別に数値化し、それらを組み合わせてベクトルやレーダーチャートのような形で感情状態を表現します。

長所：感情の多様性を柔軟に表現できる。

短所：要素間の相互作用の説明が複雑。

プルチックの感情輪 (1980)

概要：8つの基本感情とその組み合わせで感情を表現。

感情の扱い：この理論では、8つの基本感情（喜び、信頼、恐れ、驚き、悲しみ、嫌悪、怒り、期待）を円形に配置し、各感情の強度を中心からの距離で表します。感情は0（中心）から3（最外周）の4段階で強度を数値化します。複雑な感情は、隣接する2つの基本感情の組み合わせとして表現されます。例えば、愛は喜びと信頼の組み合わせとなります。感情状態は、8次元ベクトル [喜び:2, 信頼:3, 恐れ:0, 驚き:1, 悲しみ:0, 嫌悪:0, 怒り:1, 期待:2] のように表現でき、これを感情輪上にプロットすることで視覚化できます。

長所：感情の強度と複雑さを視覚的に表現できる。

短所：全ての感情を網羅しているわけではない。

Russellの円環モデル (1980)

概要：感情を快-不快と覚醒-睡眠の2次元で表現。

感情の扱い：この理論では、感情を2次元平面上の点として表現します。横軸は快-不快（Valence）を表し、-10（非常に不快）から+10（非常に快）までの値を取ります。縦軸は覚醒-睡眠（Arousal）を表し、-10（深い睡眠）から+10（高覚醒）までの値を取ります。任意の感情状態は、この2次元平面上の座標 (x, y) として表現されます。例えば、興奮は (5, 8)、リラックスは (7, -3) のように表現できます。これにより、感情を連続的な空間で捉えることができます。

長所：感情の連続性を表現できる。

短所：特定の感情の区別が難しい場合がある。

Affect Grid (Russell et al., 1989)

概要：Russellの円環モデルを簡略化し、グリッド形式で表現。

感情の扱い：この理論では、Russellの円環モデルを9x9のグリッドに簡略化します。横軸は快-不快を表し、-4（非常に不快）から+4（非常に快）の9段階で表現します。縦軸は覚醒-睡眠を表し、同じく-4（深い睡眠）から+4（高覚醒）の9段階で表現します。感情状態は、このグリッド上の1つのセルを選択することで表現されます。例えば、(2, 3)は「やや快で比較的覚醒度が高い」状態を表します。この方法により、感情評価を素早く直感的に行うことができます。

長所：簡単で直感的な感情評価が可能。

短所：詳細な感情の区別には不向き。

Valence-Arousalモデル

概要：感情を感情価（快-不快）と覚醒度の2次元で表現。

感情の扱い：このモデルは、Russellの円環モデルと非常に似ていますが、より一般化されています。感情価（Valence）は通常-1（非常に不快）から+1（非常に快）の範囲で、覚醒度（Arousal）は0（完全な睡眠状態）から1（最大覚醒）の範囲で数値化されます。感情状態は (Valence, Arousal) の形式で表現されます。例えば、(0.7, 0.8) は「かなり快で高覚醒」な状態を表します。これらの値は、2次元平面上にプロットしたり、ベクトルとして扱ったりすることができます。

長所：感情の基本的な側面を簡潔に表現できる。

短所：複雑な感情の表現には限界がある。

PADモデル (Mehrabian & Russell, 1974)

概要：快-不快（Pleasure）、覚醒-鎮静（Arousal）、支配-服従（Dominance）の3次元で感情を表現。

感情の扱い：このモデルでは、感情を3つの次元で表現します。各次元は通常-1から+1の範囲で数値化されます。Pleasure（P）は感情の快-不快、Arousal（A）は覚醒-鎮静、Dominance（D）は支配-服従を表します。感情状態は (P, A, D) の3次元ベクトルとして表現されます。例えば、(0.6, 0.7, -0.2) は「やや快で覚醒度が高く、やや服従的」な状態を表します。これにより、Valence-Arousalモデルよりも豊かな感情表現が可能になります。感情状態は3次元空間内の点としてビジュアル化することもできます。

長所：Valence-Arousalモデルより豊かな感情表現が可能。

短所：3次元の解釈が直感的でない場合がある。

Dimensional Theory of Emotions (Mehrabian, 1996)

概要：PADモデルに予測可能性（Predictability）を加えた4次元モデル。

感情の扱い：このモデルは、PADモデルを拡張し、予測可能性（Predictability）の次元を加えています。各次元（Pleasure, Arousal, Dominance, Predictability）は-1から+1の範囲で数値化されます。感情状態は (P, A, D, Pr) の4次元ベクトルとして表現されます。例えば、(0.5, 0.6, -0.3, 0.8) は「やや快で覚醒度が高く、やや服従的で、非常に予測可能」な状態を表します。この4次元モデルにより、より詳細な感情の区別が可能になりますが、視覚化は難しくなります。代わりに、レーダーチャートなどを使用して表現することができます。

長所：より詳細な感情の区別が可能。

短所：複雑さが増し、実装が難しくなる。

APPRAISALモデル (Scherer, 2001)

概要：感情を状況の評価（アプレイザル）プロセスの結果として捉える。

感情の扱い：このモデルでは、感情を複数の評価基準（アプレイザル）の結果として扱います。主な評価基準には、新規性、快/不快、目標関連性、対処可能性、自己概念との一致性などがあります。各基準は通常-1から+1の範囲で数値化されます。例えば、ある状況の評価結果を [新規性:0.7, 快/不快:0.5, 目標関連性:0.8, 対処可能性:-0.2, 自己概念との一致性:0.4] のようなベクトルで表現します。これらの評価結果の組み合わせが特定の感情状態を生成すると考えます。感情状態はこれらの評価値のベクトルとして表現され、必要に応じて特定の感情ラベル（例：「喜び」「不安」）に変換することができます。

長所：感情生成プロセスの詳細な説明が可能。

短所：多数の評価基準のため、計算が複雑になる。

OCCモデル (1988)

概要：認知的評価に基づいて22種類の感情を定義。

感情の扱い：このモデルでは、感情を事象、行為者、対象に対する評価の結果として扱います。22種類の感情（喜び、悲しみ、誇り、羞恥心など）が定義され、各感情は0（存在しない）から1（最大強度）の範囲で数値化されます。感情状態は、これら22種類の感情の強度をベクトルとして表現します。例えば、[喜び:0.7, 悲しみ:0.1, 誇り:0.5, 羞恥心:0.0, ...] のようになります。また、各感情の生成過程を論理的な条件分岐（IF-THEN規則）で表現することもできます。これにより、計算機による感情生成と推論が可能になります。

長所：計算機による感情モデリングに適している。

短所：人間の感情の複雑さを完全には捉えきれない。

Geneva Emotion Wheel (2005)

概要：感情を16のカテゴリーと4つの象限で表現。

感情の扱い：このモデルでは、16種類の感情を円形に配置し、それらを4つの象限（高制御/快、低制御/快、高制御/不快、低制御/不快）に分類します。各感情は0（存在しない）から5（最大強度）の6段階で強度を数値化します。感情状態は、16次元のベクトルとして表現されます。例えば、[興味:4, 愛情:3, 誇り:2, 喜び:3, 満足:1, ...] のようになります。このベクトルは、Geneva Emotion Wheelという円形のダイアグラム上にプロットすることで視覚化できます。各感情の強度は、中心からの距離で表現されます。

長所：視覚的に分かりやすく、感情の強度も表現できる。

短所：16の感情カテゴリーでは表現できない感情がある。

Cognitive-Motivational-Relational Theory (Lazarus, 1991)

概要：感情を認知的評価、動機づけ、関係性の相互作用として捉える。

感情の扱い：このモデルでは、感情を一次評価（自己にとっての意味）と二次評価（対処能力）の結果として扱います。一次評価は目標関連性（0-1）、目標一致性（-1から+1）、自我関与（0-1）の3つの要素で構成されます。二次評価は、原因帰属（-1から+1）、対処潜在力（0-1）、将来の期待（-1から+1）で構成されます。感情状態は、これら6つの評価要素のベクトルとして表現されます。例えば、[目標関連性:0.8, 目標一致性:0.5, 自我関与:0.7, 原因帰属:0.3, 対処潜在力:0.6, 将来の期待:0.4] のようになります。これらの評価結果に基づいて、特定の感情（例：喜び、怒り、不安）が生成されると考えます。

長所：感情と対処行動の関連を説明できる。

短所：個人差や文化差の説明が難しい。

WASABI感情アーキテクチャ (Becker-Asano, 2008)

概要：PADモデルを拡張し、認知的評価と身体的反応の相互作用を考慮。

感情の扱い：このモデルでは、PADモデルを基礎としつつ、認知的評価と身体的反応を統合します。PAD値（各-1から+1）に加えて、情動喚起度（0から1）と気分（-1から+1）を導入します。感情状態は (P, A, D, 情動喚起度, 気分) の5次元ベクトルとして表現されます。例えば、(0.6, 0.7, -0.2, 0.8, 0.5) は「やや快で覚醒度が高く、やや服従的で、強い情動喚起と良い気分」を表します。さらに、認知的評価（例：目標関連性、対処可能性）の結果も考慮し、これらを組み合わせて最終的な感情状態と表出行動を決定します。

長所：エージェントのシミュレーションに特化している。

短所：人間の感情の全ての側面を網羅しているわけではない。

Multilevel Model of Affect (Koole, 2009)

概要：感情を異なる時間スケール（瞬間的、短期的、長期的）で捉える。

感情の扱い：このモデルでは、感情を3つの時間スケールで扱います。1）瞬間的感情（数秒から数分）、2）短期的感情（数分から数時間）、3）長期的感情（数日から数週間）です。各スケールにおいて、感情は快-不快（-1から+1）と覚醒度（0から1）の2次元で表現されます。したがって、感情状態は6次元のベクトルとして表現されます：[瞬間的快不快, 瞬間的覚醒度, 短期的快不快, 短期的覚醒度, 長期的快不快, 長期的覚醒度]。例えば、[0.7, 0.8, 0.5, 0.6, 0.2, 0.4] は、瞬間的には非常に快で高覚醒、短期的にはやや快で中程度の覚醒、長期的にはわずかに快で低覚醒という状態を表します。

長所：感情の時間的変化を詳細に表現できる。

短所：異なる時間スケール間の相互作用の説明が複雑

Lövheimの立方体モデル (2012)

概要：感情を3つの神経伝達物質（セロトニン、ドーパミン、ノルアドレナリン）のレベルで表現。

感情の扱い：このモデルでは、感情を3つの主要な神経伝達物質の濃度によって表現します。各軸はそれぞれセロトニン（x軸）、ドーパミン（y軸）、ノルアドレナリン（z軸）の濃度を表し、各軸の値は0（低濃度）から1（高濃度）の範囲で数値化されます。感情状態は (セロトニン, ドーパミン, ノルアドレナリン) の3次元ベクトルとして表現されます。例えば、(0.2, 0.8, 0.5) は「セロトニンが低く、ドーパミンが高く、ノルアドレナリンが中程度」の状態を表し、これは「喜び」に対応すると考えられます。この3次元空間内の8つの頂点が、8つの基本感情（怒り、恐れ、嫌悪、羞恥、興奮、喜び、満足、落胆）に対応します。

長所：感情の生物学的基盤を直接的に扱える。

短所：神経伝達物質と感情の関係が1対1対応ではない。

Hourglass of Emotions (Cambria et al., 2012)

概要：感情を4つの独立した次元（快楽、注意、感度、適性）で表現。

感情の扱い：このモデルでは、感情を4つの主要な次元（快楽、注意、感度、適性）で表現します。各次元は6つのレベル（-3から+3）で数値化されます。感情状態は (快楽, 注意, 感度, 適性) の4次元ベクトルとして表現されます。例えば、(2, 1, -1, 3) は「かなり快で、やや注意が高く、わずかに感度が低く、非常に適応的」な状態を表します。これらの4つの次元の組み合わせにより、24の基本感情（6レベル × 4次元）が定義されます。このモデルは砂時計の形状で視覚化され、上部が正の感情、下部が負の感情を表します。

長所：感情分析やセンチメント分析に適している。

短所：4次元の解釈が直感的でない場合がある。

4.　まとめ

感情値を用いた既存のサービスやAgents研究ではエクマンの基本感情理論を使用しているものが多かったです。

例えばEmpathという音声解析のサービスを提供する企業では、会社の研究の取り組みとしてこちらに様々なコラムをアップしています。（こちらではエクマンとプルチックの感情理論を元に感情ラベルを構築しているようです。）

個人的には複雑さに欠けるものの、単純な二次元の感情値の実装だけなら喜怒哀楽を取り扱うRussellの円環モデル、三次元で扱うならPADモデルが非常に便利そうに見えました。

実はまだ研究では調査と設計の段階なので、もう少し文献に触れたのち、相性のいい感情理論の選定を行う予定です。

今後のAI Agents研究に貢献できるよう、時間があったときに改めて記事をまとめ直します。この分野に詳しい方には、ぜひアドバイスやコメントをいただけたら幸いです。