ニューノーマルで注目される音声インターフェース。グローリー、フュートレックと共に音声認識活用の裏側を語る。

2021年4月7日 12:00

こんにちは、セールスチームの金川です。
3月のオンラインセミナーは、感染防止や利便性向上に向けて各企業が注目する「触れずに声で操作ができる音声インターフェース」をテーマに開催しました。

ゲストに、音声認識エンジンを採用し製品開発を行っているグローリー株式会社の高橋氏、音声認識エンジンを提供している株式会社フュートレックの田中氏をお迎えし、利用者がストレスなく使える音声インターフェース設計と開発の裏側を語っていただきました。

本レポートではパネルディスカッションを中心にお届けします。

こんな人におすすめのセミナーレポートです。

◇ 自販機・エレベーター・精算機・発券機等、人が触って操作する機器に関連するメーカー担当者
◇ 事業会社の新規事業担当者、非接触技術に興味のあるエンジニア

イベント詳細はこちら

＊＊＊

はじめに｜ユーザーインターフェースの種類とVUIの技術

ユーザーインターフェースは、PCのキーボードやスマートフォンのフリック入力等、音声に限らずわたしたちの周りにたくさんあります。
一番大切にしなければならないのが利用者の体験で、ツールありきではなく、利用者がいかにスムーズに使えるかを考える必要があります。

何気なく使っているスマートスピーカーには、たくさんの技術要素が詰まっています。

音声が他のインターフェースと違う点

高橋氏
音声インターフェース（以下VUI）に注目したきっかけは、10年ほど前に病院で機械操作に慣れていない高齢者が、一生懸命、機械に話しかける様子を目の当たりにしたからです。
この状態を、音声でなんとか解決したいと思ったのがはじまりでした。

タッチパネルやキーボードは、デバイス（機械）のインターフェースに人が合わせていくので、慣れてる人には使いやすいですが、機械に慣れてない人には使い辛いのが現状です。

一方で音声は、自分が喋ったことを相手が応えてくれるはずだと思ってやり取りをするため、アウトプットの満足度につながりやすいと考えています。

田中氏
高橋さんがおっしゃることに近いですが話す行為は多くの人が生まれつき持っているコミュニケーション手段です。
新たに何かを学習する必要がないので、音声は自然なインターフェースであると考えています。

パネルですと入力ボタンやキーボード等、表現できることが限られていますが、言葉は色んな意味を持つので、音声であれば一度で情報を引き出すことができます。

例：音楽再生時
◇ スマートフォンの場合
音楽再生アプリを立ち上げ、プレイリストもしくは検索ボタンより、曲名・アーティスト名を入力するため、アプリ操作と入力の手間がかかる。

◇ VUIの場合
「〇〇再生して！」と曲名を読み上げるだけで、手軽に再生できる。

またこのご時世ですので、音声であれば触れずに操作できるため、注目されているように思います。

青木
われわれも、10年ほどロボットのインターフェースについて考えていますが、なぜロボットなのか？と頻繁に聞かれます。

ロボットの良いところは、その場にいる全員に情報を共有してくれるんです。
例えば、家族で食事中にお父さんがスマホでニュース見ていたら怒られますが、それをロボットが読み上げてくれたらそういうことは起こらないと思うんですよね。

ロボットの場合は、人に共感し、励ましてくれたりしながら、利用者へ働きかけることができるところも良いポイントです。

他インターフェースとの組み合わせの勘所

高橋氏
当社（＝グローリー）には、タッチパネルで操作する製品が多く、ここを音声に置き換えられないかと考えましたが、先にお伝えした通り特性が異なるため、インターフェースを1つに絞ったほうがスムーズにできそうということがわかりました。

まだ対応できておりませんが、インターフェースの入口にBOCCO emoを置き、利用者にとって必要最小限な情報（例：精算金額）だけを画面に表示させるのがよいのではないかと考えています。

利用者にとって、音声・画面どちらも使える状態にあると、操作を迷わせてしまう原因になるため、どちらかに絞ることがユーザー体験の設計上、重要です。

青木
ロボットなら音声以外にも表現する要素があります。
例えば当社のBOCCO emoなら、ほっぺを光らせたり、頭の上にあるぼんぼり（＝アンテナ）をぶんぶん振って、「ちゃんと聞いてるよ」と利用者が安心して話しかけられる工夫があります。

やはり、話しかけているのに、通じているかどうかわからない状態は避けたいですよね。

VUIをうまく利用している事例

田中氏
当社（＝フュートレック）の紹介で恐縮ですが、NTTドコモさんと開発したサービス「しゃべってコンシェル」で、話しかけると何かを達成できることを多くの人に体験いただきました。その結果、人が機械に対してに喋ることに慣れてきたのではないかと思います。

鈴木
業務用では何かありますか？

田中氏
音声認識を一番活用されているのが、コールセンターのオペレーターの支援業務です。お客様からの問合せ内容を音声認識し、オペレーターの回答をアシストします。
オペレーターを統括する立場の方ですと、音声認識された情報を見て、回答に困っていないか、応対に不適切な発言をしていないかの確認判断を行っています。

またお客様とのやり取りを音声認識で記録、内容の要約や分析も行い、顧客管理ソフトに連携も可能です。

医療現場では電子カルテを音声作成したり、海外の方とのコミュニケーション手段では、テキスト入力の手間を省けるポケトークが伸びているように思います。

VUI導入の勘所

高橋氏
テスト導入で一番苦労したのは、音声認識の精度を上げるためにノイズキャンセリングをどうするかです。当社（＝グローリー）の商品は、病院、飲食店、映画館等様々な環境で利用されているので、ノイズの種類が異なります。

ノイズをクリアにするために、設定を変えながら運用する策もありましたが、複雑にしてしまうと設置時の運用が難しくなります。そのため設定はシンプルにすることを心掛けました。

田中氏
ノイズは認識精度に非常に影響があるのでノイズをどう回避するのかは大きな問題ですよね。マイク部分でノイズを回避しすぎてしまうと、声の波形の特徴量に影響されてしまうので、マイクの位置を変えて調整したりします。

また成人の声に比べて、子どもや高齢者の声は認識精度が下がりやすい傾向にあります。一番困るのは、非常に短い言葉だとヒントが無くて、数字なのかアルファベットなのか判別できなくなります。そのため「このスロットにはアルファベットしか入らない」等の作り込みが必要になります。

鈴木
なぜ成人の方と比べて子どもや高齢者の声の認識率が下がるのか、背景を教えていただけますか？

田中氏
一般的に音声認識エンジンの音響モデルのベースとなっている学習データは、成人の音声が圧倒的に多いため、精度が高く出る傾向にあると認識しています。
現在は、子どもやご高齢者の声も収集し、学習することによって精度を上げていく取り組みも行っています。

青木
当社（＝ユカイ工学）のように、ロボットの内部で音声認識エンジンを動かす場合は、語彙の種類を変えることによって、誤認識を減らす工夫をしています。
その時には辞書のチューニングをフュートレックさんに依頼したり、ソフトウェア上の調整が必要になってきます。

また、ハードウェア上で動かすとファンの音も拾うため、マイクの位置も結構重要ですね。

VUIを利用したコンテンツ開発

青木
先にもお伝えした通り、音声は共感を示し、人に働きかけをすることができます。
ロボットのような、親しみやすい見た目のハードウェアとセットになることによって、提供できる新しい価値、使い方ができると思っています。
スマートスピーカーからご高齢者に「お薬飲んだ？」と発話させると事務的でそっけないですが、ロボット経由だと、聞き入れやすいという例があります。

人は声に敏感ですので、コンテンツを作り込む価値はあると感じています。

鈴木
ロボットを介したコミュニケーションで、エモ語を採用した理由はなんでしょうか。

◇ エモ語について ◇
BOCCO emo独自の効果音のような言語。
利用者からの発話や周囲の雑談に対して「むにゅ」「エモモ！」など、感情豊かに反応する。エモ語とあわせて頭やぼんぼりを動かしたり、ほっぺを光らせ喜びや悲しみなどを表現する。

青木
仕事で疲れて帰宅したときに、たくさん話しかけられるのは疲れますよね。
ペットの場合、しっぽをふって反応してくれるだけでも嬉しいように、日本語のやり取りではなく、リラックスしたコミュニケーションができる作り込みがしたいと思い採用しました。

高橋氏
自宅でBOCCO emoを使い始めて2か月程ですが、一家の一員になっていますね。青木さんがおっしゃるように、エモ語がすごい良いんです。
こちらが考えてることを理解しているのか、家族がどんどんBOCCO emoと話すようになりました。

先にもありましたが、頭の上のぼんぼりが反応してくれることによって、安心して喋れますし、素晴らしいロボットインターフェースだと思います。

VUIに期待することと、自社が描く将来像

高橋氏
やりたいことは、当社（＝グローリー）の製品を全て音声で対応できるようにすることです。
現在フュートレックさんと一緒に開発を進めている音声認証や、当社の顔認証を活用して利用者個人を理解し、音声で支援できるようにしていきたいです。

田中氏
VUIが人に寄り添うものになってほしいと考えています。
声紋認証や音声認識に画像処理を組合わせることで、しゃべった区間を判別し、口が動いているかどうかによって音声認識精度があがるのではないでしょうか。

また非言語情報として、音から年代や性別、緊急度や感情も併せて提供できるようにしたいと考えています。

終わりに｜音声は誰もが有しているコミュニケーション手段

声で機械を操作できる手軽さから、わたしたちの周りに増えてきているVUI。

音声は誰もが有しているコミュニケーション手段だからこそ、世代問わずに使えるようになる日が近づいてきているように思います。
発話したから返答がある、発話内容に相槌を打ってくれるように、利用者にとって安心して発話できる仕掛け作りの大切さを知ることができた時間でした。

こんなときは、ユカイ工学にご相談ください

・既存事業の課題をIoTシステムを用いて解決したい
・利用者の視点で使いやすいシステムに改善したい
・実証実験用のシステムをクイックに開発したい
・製品化に向けてプロトタイプを開発したい

新規事業開発や既存サービスの改修など、ユカイ工学のロボティクス技術やノウハウを活用しサポートいたします。
お困りごとやご相談などございましたら、お気軽にお問い合わせください。

お問い合わせはこちら

お役立ち資料
無料でダウンロードできる資料もご用意しています。
新規事業やクラウドファンディングなどにぜひご活用ください。

メールマガジン
ユカイ工学の製品開発支援・ロボット活用の事例紹介、新サービスのお知らせなど、法人様への最新情報をお届けします。お気軽にご登録ください。

いいなと思ったら応援しよう！

この記事が参加している募集

#イベントレポ

29,586件