![見出し画像](https://assets.st-note.com/production/uploads/images/12407659/rectangle_large_type_2_59adbaa6734d2295c796af1d2147b05f.jpeg?width=1200)
音声から得られる情報って何がある?
株式会社voicewareでは、声質変換技術を専門に取り扱っていますが、音声×AIの専門家ということで、しばしば音声分析の依頼をいただくことがあります。
それでは、音声を分析してどのような情報が得られるのでしょうか?
よく挙げられるのは、感情と話者ですね。
実際にビジネスに利用されているケースも多いです。
感情分析って何に使えるの?という意見もよく聞きますが、意外とニーズは多いんですよ。
コールセンターのように音声のみでコミュニケーションをする状況では、感情を読み取ることは非常に重要なことだと考えています。
電話営業やクレーム対応に活用し、コンバージョン率向上・顧客満足度向上に活用したいという動きは増えています。
最新の研究分野では、「喜び」「悲しみ」「怒り」の3感情であれば、8割程度の精度で識別が可能になっています。
人間でも感情の読み取りはなかなかできないので、8割の精度であれば、人間の読み取り能力とほぼ同等と言っても過言ではないのではないでしょうか。
ところで、そもそも人間の感情ってどれくらいの種類があると思いますか?
細かく分けると2,000以上あるそうです。もう訳がわからないですね(笑)
感情についてはいろんな見解があるのですが、基本感情と呼ばれているのは8感情とされていることが多いです。
(「喜び」「悲しみ」「怒り」「驚き」「恐怖」「受容」「嫌悪」「期待」)
感情の種類が増えてくると、AIを活用した分析でも識別精度はまだまだ低いですが、今後の研究が進むことで向上してくると思います。
他にも、音声から、精神的な病気、ストレス状態を判定するという技術もあるようです。
話者識別については、イメージもつきやすいと思います。
議事録や対談の文字起こしの手間が減るので、ニーズはかなりあります。
ただ、こちらについては、まだまだ実用化できる精度には至っていないといったところでしょうか。
海外版Alexaにも話者識別機能が搭載されているようですが、家族の識別なので、4〜5人くらいが限界ではないかと思います。
会議のような不特定多数の方がいる状況では難しくなりますね。
とはいえ、研究のスピードも飛躍的に向上しているので、数年後にはいろんな場所で導入されていることでしょう。
あとは、声によって、その人の特性を可視化することもできます。
聞いていて心地よい声や、元気付けられる声、あるいは萎縮する声等々ありますよね?
同じように、営業に適した声、コンサルティングに適した声、演説に適した声があると考えています。
そういった、その人の声の特性を教育や採用に利用されるケースも増えてくるのではないでしょうか。
これ以外にも挙げるとキリがないくらい音声から得られる情報はたくさんあります。
こういった声の可能性を最大限に活かせる社会を実現することも我々のミッションの1つと考えています。
声質変換以外にも様々な分野にチャレンジしていきますね!
株式会社voiceware
代表取締役CEO 田村一起
http://voiceware.co.jp/