PNGイメージ_12

共感できるAIの話

こんにちは。

今回は、感性デザイン部ロジカル代表の松村さん(通称:ロジ村さん)が、音声感情認識AIのEmpath活用セミナーに参加した際のまとめをシェアしたいと思います。

イベント概要

Empath 活用方法セミナー
2019/4/26(金) 11:00〜12:30 @株式会社エクス
参加者: 15名ほど

Empathの概要

(話者:Consulting Manager / Account Managerの中野さま)

Empathは感情認識AIを手がけるスタートアップ。

ミッションは「共感で全ての対話を楽にする」
3.11のときのボランティアの方の感情を解析して、マネジメントに用いたというメンタルヘルスから会社が始まった。

・SDKを使った感情解析デモ
 リアルタイムに解析できる。後でまとめの結果をアウトプットもできる。

4つの感情と、そこから総合的に割り出されるenergy point(元気度)の合計5つのパラメータが返却される。元気度はEmpath独自の指標。

 joy 喜び
 calm 平常
 anger 怒り
 sorrow 悲しみ

発話単位で感情を解析。SDKには終端検知が組み込まれているっぽい。
リアルタイムでの表示は、折れ線グラフでの表示。
複数の感情が検出されるというわけではなく、確度の高い感情が複数表示されている。
出てくる感情の解釈は、ユーザーに任せている
(後述のUAEの場合、元気度 = 幸福度として解釈する)
音声の抑揚やピッチなどから解析しているので、言葉の意味は全く見ていない→だから多言語にも対応できる!

・AIの作り方
音声データに人が感情をつけて、AIに学習させている。
したがって、内面的な感情を読み取れるものではなく、あくまでも第三者が人の声から感じ取る感情を解析できるもの。

・Affective Computingについて
人間の感情や情緒に関係するコンピューティング分野。
表情解析(MIT labo)がメジャー。
市場はかなり大きいが、商用ベースの会社は5社ぐらい(日本ではempathぐらい)。

・提供の仕方
クラウド型のAPI / ライブラリ型のSDKの2つ。仕様は後述。

・実績
世界50カ国に1500以上の顧客。
言語に依存しない解析を行っているので世界で応用できる。
直近では、UAEの幸福推進事業に用いられている。

国外でのピッチコンテストで優勝実績が8回。(2017年~2019年。)
ピッチコンテストで優勝すると、海外メディアに取り上げられる。
※賞金も結構な収益になる
国内外200社以上の国内外メディアに掲載。

Web Empath APIを用いた開発手法

(話者:Application Engineer 齋藤さま)

・提供方法と実用例

※Say Pockyはこちら

・API仕様
httpリクエスト。
curlコマンドで所定のURL(v2のサーバ)にpostするだけ。
レスポンスはjson形式 感情と値、エラーコードが返ってくる。
APIkeyはウェブサイトから発行できる。

Empathの音声ファイル仕様について

(話者:音響エンジニア 川上さま)

・音声ファイル仕様 概要

・音声ファイル仕様 詳細

・音声ファイルについての注意点
事前収録された音声を使用する場合44.1kHzになることが多いので、11kHzに変換する処理が必要。
sox, ffmpeg, LAMEなどを使えば良い。
・soxは商用利用可能
・ffmpegは商用利用できない機能あり
・LAMEはmp3をWAVに戻せる??

※11kHzでも、人の音声の8割ぐらいは取れるので良しとしている。
 11kHzにすることでデータ量を落としている。

Empathの最新事例

・応用事例(紙面で紹介)

・Emo Value Generatorという製品
大量の音声データを感情解析するためのEmpath独自の解析ツール。
・Windows専用
・SDK組み込み型
・解析量が無制限
・CSVでアウトプット可能
 
・感情解析コンサルティング
感情解析のコンサルを行っているらしい。
すでにあるデータを解析して、リサーチ結果をまとめ、改善方法などを提案する事業。 

(例1) コールセンターの応対品質向上
  ハイパフォーマーとローパフォーマーの音声データを比較。
   (それぞれ顧客評価が高い人、低い人)

ハイパフォーマーは、平常(calm)が高い水準で推移している。
ローパフォーマーは感情のばらつきがある。
ローパフォーマーをハイパフォーマーにあげるために、カラオケの採点システムのような形で感情を整えるシステムを作ることを考えている。
(例2) クレーム検知
  電話対応にかかってくるクレームデータを解析し、
  人が怒り出す前には、少しjoyの感情が飛び出すことを突き止めた。
  今後は、事前に人が怒り出すことを検知し、先回り対応を目指す。
(例3) 社内で横柄な話し方をするやつをあぶり出したい
  相談ベース。
(例4) アポ電(オレオレ詐欺)の解析
 トクダネの取材を受けた時の内容。
 手練れの詐欺師は、「金が必要」という切羽詰まった発話でも、平常の感情が出ていた。

Empathの今後 

事業として軌道に乗せつつも、最終的には「空気読むロボット」みたいなのを作りたい。
うまく話せている人は、相手の感情に応じて話す内容を変えているので、そういうのを実現したい。
まずはスマートスピーカー事業の伸びを考えて、Voice Commerce分野に進出していこうと考えている。

質疑応答

Q:声の高さは精度に関係ないの?
A:声の高さによって結果が変わらないようにキャリブレーションはしている
Q:解釈を変える部分にはコンサルは入らない?
A: 相談があれば入るよ。
Q:今後、WAV形式以外の検討はしているか?
A:今プランはない。やるとしたらflacはあるかも。 
Q: 音声系のAPIは、全部で形式が違うから、開発時に困るんだよなー。 
Q:言語によって精度が異なるか?
A:するどい!!例えば中国語は精度は劣る。北朝鮮のニュースキャスターとかをイメージしてもらうとわかりやすいかと。
得意なのは日本語。データセットが日本語なので。
各国ごとにSDKを用意するのではなく、個人にキャリブレーションしていく方法を考えている。(その人の平均の感情を取得しておいてキャリ)
日本語の精度は80%ぐらい。

本筋とは関係ないが、参考になった話。その他メモ。

・EI(Extended Intelligence)という言葉
AIは、人間の仕事をとるというネガティブな文脈でも用いられるので、EIという言葉も最近でてきている。人間の技術を拡張するインテリジェンスという意味。

・音声解析をするのにコールセンターのデータはめっちゃいい
高音質の音声が大量に残されている。
2人分の音声が、話者が弁別された状態で残っている。

・Affective Computingと購買の関係
「店頭で眉間にしわを寄せている人はモノを買いやすい」という研究がある。
empathの感情解析でも同様の事例がある。
セールスの場で商品を紹介して、「どうですかねー」と話しているフェーズで相手がsadの感情を出している場合は、グッと押すと買ってくれやすくなる。(成約率20%増)

・業務提携をしているBONX
未来のインカム。
ノイズキャンセルができる + 発話検知もある多人数コミュニケーションデバイス。めちゃ良さそう。


以上です。

(レポート:ロジ村)

もしよかったらアレしてください。