2019-05-10 Alexa for Everywhere. #DevLOVE
2019/05/10 に開催された [DevLOVE Premium第4回] Alexa for Everywhere. のイベントレポートです。
●イベント概要
毎月、特別な企画をあなたにお届け。それが「DevLOVE Premium」
2019年。DevLOVEでは、毎月1回、あなたに特別な時間をお届けします。
「DevLOVE Premium」と題したこの企画、各回に1つの技術テーマを設けて、普段は聞けない、コアでディープなイベントを展開していきます。
第4回のテーマは「自然言語処理」
Amazonが提供するVoice ServiceであるAlexaをさまざまなデバイスに搭載することで、そのデバイスに新たなVoice User Interfaceを実装し、新しい使い方、ユーザエクスペリエンスを提供することができるようになります。スマートホームコントロール、音楽再生、情報収集、その他さまざまなエンターテイメントサービスを音声により制御することが可能となります。
Alexa Voice Service(AVS)は3rd PartyデバイスにAlexaを搭載いただくためのツールや仕組みを提供しており、Alexaが提供する様々なサービスを組み込んでいただくことが可能になります。
本セッションでは、AVSを中心とした、Alexaを搭載するデバイスに必要となるテクノロジーをご紹介いたします。
■Alexa for Everywhere.
北迫 清訓 さん [アマゾンジャパン合同会社]
●Alexa Voice Service
・デバイスはメーカーさんが詳しい
・コネクテッドデバイスにするところを支援
まずは動画で
●Alexaにできること
・ミュージック&メディア
・Alexaに聞いてみよう
・ショッピング
・Alexaスキル
・コミュニケーション機能
drop inで連携
・ニュース&情報
・家のことをお手伝い
タイマー、アラーム、通知
・スマートホーム
これからの主軸
デバイスのコントール
・ゲームと遊び
未だにピカチュウ、じゃんけんが人気
この状況を乗り越えないと広がらない
-> 声を使って生活のルーチンワークをこなすことが普及の肝
●2014年
・デバイスはシンプルに、クラウド側が賢く
・デバイスは買ったらそこで終わり
バージョンアップや、EOS
売り切りスタイルだった
●2015年〜
・Alexa自身は音声認識しているだけ
・クラウド上のASR、NLUを呼び出している
-> AVSでコネクテッドデバイスにAlexaを搭載
●アーキテクチャ
・「アレクサ、ジャズの音楽かけて」
・Wake Word Engine
Wake Wordをデバイス上で検出
これまで音声をとっていない
というのがセキュリティのポイント
・Speech Platform
ASR(音声認識) -> 認識結果
NLU(自然言語解析) -> インテント(変数のイメージ)
スキル -> 外部API -> サービス
発話するメッセージ
再生するためのURL
TTS(音声合成) -> 再生URL
・スピーカーで再生
外部サービスからストリーミング
●VoiceServiceの状況
・利用用途
圧倒的に多い
質問する
音楽再生
日本だと習慣が弱いが、世界では主流
意外に多い
タイマー
ながらで利用することが多くなる
ゲームはやりたいと思わないとやらない
コモディティ化するとゲームは減る
これから
電話、デバイス操作が増えてくる
・設置場所
リビング
キッチン
ベッドルームも
●スマートホーム
・スマートホームカテゴリは、去年で95%成長
カメラ、ビデオゲームなどと同等の規模
・シームレスな動作がスマートホームのポイント
全てをvoiceにする必要はない
帰ってきたらセンサーで電気がつく
寝るときはトリガーがないので声掛け
・明確な利用目的でアダプション率が上がる
●Alexa Everywhere
・各デバイスに話しかけて、各デバイスが役割を果たす
テレビの操作のためにechoに話す状況は
変わってくるはず
・alexaスキルはすでに 70,000以上
日本でも1年で 2,500
数から、より使われるスキルへ
・対応言語
英語圏が多い
スペイン語、ポルトガル語、イタリア語も
アジアはまだ少ない
中国は難しい
国内でビジネスが成り立ってしまう
ASEANが進みそう
●Alexa対応製品
・テレビが力を入れてくれている
・カメラなども増えてきそう
●Alexaとの連携
・これまで
スマホ対応しているデバイスは多い
個別のアプリを立ち上げないといけない
echoが声で仲介
・これから
各デバイスのalexaに話しかける
メーカーをまたいでテレビや冷蔵庫を操作
・スマートスピーカーだと用途がブレる
音楽用のスピーカーに音声認識がつくと
「音楽かけて」と話しかける
-> 定着へ
●ストレスのないVoice環境へ
・コンセントとwifiの奪い合いになる
買ったものにすでについている状況が必要
・自然に使える状況には画面も重要
何を言えば操作できるかを考えるのは
ユーザに負荷がかかる
・誤作動もユーザにはストレス
お前に話しかけてないよ!
・デバイスごとに音声のとり方も最適化出来る
echoは360度。壁の反射も受けてしまう
サウンドバーなどなら前面に最適化
●AVS Device Architecture
・Audio Front End
・AVS Client
・AVS API
・LWA
●インタラクションモデル
・close to talk
プッシュ、タップ、タッチ
ヘッドホンなど
・Near-Field
1.5m
・Far-Field
6m
離れるほどマイクが必要
●Audio Algorithms
・デバイスは市場に出ると原価の100倍必要
1円安くすることが大切!
・音響エコー
オーディオ機器で発話しているなら
自分の出した音はキャンセルできる
・ビームフォーミング
360度のマイクで、認識順が分かる
どこの認識率を上げるかを制御できる
高低差は15度くらいに最適化している
・S/N比
低いとノイズが多い
マイクの数と配置がポイント
-> 利用用途が決まっているデバイス
●クラウド主導でデバイス制御している
・Eventからデバイスの状況を把握、判断してDirective
・状況は複雑なので、コントロールは難しい
デバイスで考えると、対応状況もブレる
ブレるとユーザは使い方がわからない
・応答デバイスの制御:ESP
クラウド側で、排他制御
認識精度が高いデバイス以外にはstop capture
・2重不正起動の回避
クラウド側でwake wordを2重チェック
テレビの音を判断して止めるようになった!
・曖昧な発話の理解
音楽再生中
とめて -> 音楽を停止
天気は?
再開して -> 音楽を再開
●AVS API
・利用するためのAPIを公開
・LWAで入れる
●AVS Device SDK
・C++ベースでマルチプラットフォーム対応
・コネクションは2つ張っている
event毎のストリーム
ダウンチャンネルストリーム
・ユーザインタラクションの優先度
1 ダイアログ
2 アラート
3 コンテンツ
●Screen Device SDK
・ブラウザへのHTML DOM Elementの流し込みまでやってくれる
●Mobile Accessory Kit
・スマホアプリのSDKを利用
・Bluetoothで利用
●Multi-Room Music
・master-slave構成
・未来時刻の絶対タイムスタンプを指定
■リンク
・AVS Device SDK
・Alexa Voice Serviceチュートリアル
■QA
●これまでで一番すごいと感じた組み合わせは?
・テレビ & サウンドバーの体験はすごい
・マイクとスピーカーのデバイスを分けようとしている
マイクはたくさん必要
スピーカーは決まってくる
●始める最初のステップは?
・日々使えることを考えて体験してみる
IRブラスターを買う
生活のルーチンワークを音声操作することを体験してみるとか
■感想
個人的にアイアンマンのラボで、トニー・スタークとジャービスがやり取りするような環境を実現したいという思いがあります。
強いAIはまだ遠いと思いますが、ヒトのありのままの活動を理解して、自然なコミュニケーションをとることは、技術の組み合わせとアルゴリズムで実現できるのではないかと妄想していました。動画、音声認識が肝だと捉えて少しずつ情報収集していましたが、今回のお話はびっくりすることがたくさんありました!
・身の回りの各デバイスに入力(マイク)を組み込む
・デバイスごとの状況を、クラウドで把握、判断
・複数のデバイスを協調動作させて
・ヒトの状況に合わせた出力(スピーカー)で反応を返す
現状でも、こんな環境がつくれるんですね!
この環境に
・カメラを組み込んで、動画認識
・ウェアラブルデバイスから、ライフログデータも収集
・企業や国を越えたオープンデータ提供
・学習モデルの成長を自律化するフロー
・MRデバイスでの出力
を組み合わせたら、人の活動はどんな拡張ができるのでしょう。
AVSをさわる時間を早く作らなくては!と、ワクワクが止まりません!!
とても楽しいお話でした。ありがとうございました!
この記事が参加している募集
いつも応援していただいている皆さん支えられています。