見出し画像

感情認識の手法

この記事を書いたのは 山岡さん.

0. 本記事から分かること

  1. 感情認識の手法

1. 感情認識の手法

感情認識は、様々な手法が提案されていますが、大きく分けると視覚情報を用いた手法と聴覚情報を用いた手法の2つに分類が可能です。
本記事では特に聴覚情報を用いた手法について詳しく紹介していきます。

1-1. Keyword‑based method

キーワードベースの感情検出は、最も直感的で簡単なアプローチです。
この手法のアイデアは、感情のキーワードにパターンを見つけて、それらを一致させることである。(例えば「嬉しい」というキーワードを見つけたらポジティブな感情とするなど)
従って、最初のタスクは、文の中で感情を表現する単語を見つけることになります。
これは通常、Parts-of-Speech taggerなどの技術を用いて文の単語にタグを付けることによって行われます。次に、名詞、動詞、形容詞、副詞(NAVA)の単語を抽出します。
ほとんどの言語学的および感情ベースの研究は、この方法が感情を表現する単語を見つける方法のうち最も優れた方法であることを証明しています。
次に、これらの単語は、特定の感情モデルに従って感情を表す単語のリストと照合されます。
単語がリストの複数の感情と一致する場合は、さまざまなアプローチが適用可能です。一部のキーワード辞書では、各単語に各感情の確率スコアがあり、スコアが最も高い感情が単語の感情として選択されます。また他の研究では、単語と一致する最初の感情が単語の主要な感情として選択されます。 このキーワードの参照リストまたはキーワード辞書は、研究者によって異なります。
キーワード辞書は通常、感情とそれに関連する単語に基づいて研究者によって作成されます。辞書を作成するために使用できる単語の同義語と反意語を見つけることができるWordNetのようなオンラインツールとプログラムがあります。

1-2. Lexicon‑based method

語彙ベースの感情検出アプローチは、入力データセットに適した語彙(感情に応じてラベル付けされたテキストを含む知識ベース)を使用してテキストを分類します。(Dini and Bittar 2016; Mohammad and Bravo-Marquez 2017)
この手法による感情検出は1-1の手法と似ていますが、この場合、単語リストの代わりに感情語彙が使用されます。
National Research Council of Canada (NRC) and EmoSenticNet (ESN) などが一般的に使用される感情と感情の用語集です。 (Abak and Evrim 2016)

1-3. Machine learning method

機械学習の学習方法では教師あり学習と教師なし学習が存在しています。
感情認識では教師ありと教師なしの両方が使用されています。
モデルはデータセットの一部を使用して分類器をトレーニングするように設計されており、残りのデータは分類器の精度を測るためのテストデータとして用いらます。
教師あり学習の場合、分類器のトレーニングとテストにの感情のラベルがついたデータセットが使用されます。分類器としては ナイーブベイズ、サポートベクターマシン、および決定木は、最も一般的に使用されています。
教師なし学習はより一般化された方法ですが、ほとんどの場合、教師あり学習の方が精度が向上します。

1-4. Hybrid method(text-base)

テキスト内の感情検出のためのハイブリッドアプローチは、複数の方法の利点を達成し、最高レベルの精度に到達するために定義された任意の2つまたは3つすべての方法を組み合わせます。
いくつかの研究では、複数の感情検出方法を組み合わせて適用すると、個々の方法よりも優れた結果が得られることが証明されました。(Binalietal。2010; Tiwari et al.2016)
キーワードベースの方法、語彙ベースの方法、機械学習、ハイブリッド法を使用して感情検出の精度を比較するために実施された以前の調査によると、キーワードベースの方法と語彙ベースの方法の方がほかの2つよりも効果的であると述べられました。(Yadollahi et al.2017; Binali et al.2010; Canales and Martinez-Barco 2014; Chopade 2015; Tripathi et al.2016)
機械学習とハイブリッド法は、より大きなデータセットを用いることにより精度が高くなるため、学習データを増やすことで上記の研究の結果が変わることも考えられます。
今まで紹介した方法はテキストによる感情検出のベンチマークアプローチですが、一部の研究者は自然言語処理(Desmet and Hoste 2013)、言語ルールベースの方法(Kanger and Bathla 2017)、複数の方法のアンサンブルcite37、などを用いて良い結果を達成した研究もあります。
これらの新しい方法への変更は、テキスト入力からの改善された高精度の自動感情検出システムにつながる可能性があります。

1-5. Using Acoustic Feature Method

音響特徴は、言語情報を超えて音の聴覚的性質を扱う音声の側面のことである。
私たちは日常生活の中で音響特徴を使用して、誰かのスピーチの背後にある感情を理解します。例えばありがとうも小さい声で言っている場合と大きい声で言っている場合では発話者へ抱く感情が異なります。
上記のような音響特徴にはピッチ、ラウドネス、エネルギー、音色、一時停止など、さまざまな変数があります。
下の写真はよく使われる音響特徴の一覧です。

Emotion detection from text and speech: a survey より引用

音声から抽出された特徴が十分でない場合は、発話の言語コンテンツも感情の分類に使用されます。音声と言語機能の統合は、音声情報を使用する場合と比較して、より良い結果をもたらしました(Schuller et al.2004)。
一部の感情では、音響特徴に基づくモデルは、言語情報のみに基づくモデルと比較して、悪い結果しか生成しないです。逆もまた同様です。したがって、結果を改善するために、両方の情報源を使用するハイブリッド方式が使用されます。
これは、視覚情報を音声情報と組み合わせて使用する場合にも当てはまります。一部の感情は、音声よりも視覚的なソースを介して認識しやすい場合があります。 したがって、一部の研究論文では、視覚情報と音声情報の両方を使用して感情を分類し、より良い結果を生み出すハイブリッドシステムを使用していました(Busso et al.2004)。
視覚、音声、テキストの3種類の情報すべてに基づいて感情を分類する研究もあります。(Poria et al.2016)
また音響特徴を用いた場合には、SVM,HMM,DNNなどがモデルとして用いられていています。

まとめ

・感情認識には視覚情報を用いた手法と聴覚情報を用いた手法が存在する
・聴覚情報を用いた手法にも様々な手法がある。

推定する感情や手法によって用意する音声データや精度が大きく変わってきます。そのためどのようなモデルを作成したいかどんな感情を推定したいのかを整理することが感情認識技術においては大変重要です。
次回は、今回紹介した手法の予測精度について論文を用いて紹介していきます。


いいなと思ったら応援しよう!

この記事が参加している募集