Voice User Interface (VUI)のページはウイキペディア(日本)にはまだ無い
Voice User Interface (VUI)は、日本語では音声インターフェースなどとも言われていますが、日本のウィキペディアにはまだ情報がなくて(2018年6月)、新しい分野なのだなぁと感じます。
Voice user interface(VUI)とは
まず、ウィキペディアの英語版での説明を引用してみます。
A voice-user interface (VUI) makes human interaction with computers possible through a voice/speech platform in order to initiate an automated service or process.
(音声ユーザインタフェース(VUI)は、自動化されたサービスまたはプロセスを開始するために、音声/音声プラットフォームを通じてコンピュータと人間との対話を可能にする。)-Wikipedia
日本語版のウィキペディアには、まだVUIのページはありません。「音声インターフェイス」の解説については、ユーザーインターフェースの項目にあるのですが、次のような説明になっています。
音声ユーザインタフェース[疑問点 – ノート]
電話において、音声で案内し、ユーザーは電話機のプッシュボタンで入力する方式。音声ガイダンス。ユーザーインターフェース(Wikipedia)
現在は、疑問点のマークがついている状態です。ここに記載されている音声ガイダンスとは、IVR (Interactive Voice Response System/自動音声応答システム)と呼ばれているものです。自動音声応答システム(IVR)は、発信者のダイヤル操作に合わせて、あらかじめ録音してある音声を発信者側に自動的に再生するシステムなので、発信者は番号や単語を答えるようになっていますが、VUIの場合は、音声で端末を操作するということなので少し違うようです。
では、Alexa Skillsの開発者ページにはどのような説明があるでしょうか?
ここでは「ユーザーが声でコンピューターや端末をコントロールできるようにするのが、音声ユーザーインターフェース (Voice User Interface: VUI)です。」と説明されています。
また、この解説によると、自動音声認識 (ASR: Automatic Speech Recognition) や自然言語理解 (NLU: Natural Language Understanding)、音声合成 (TTS: Text To Speech) といった分野の知見を誰もが利用できるようになったこと、機械学習の発達など音声技術の進歩や向上によって、音声で端末を操作するということが可能になったと説明があります。
新しくない方法の新しいユーザーインターフェース
会話は、私たちの自然なコミュニケーションです。
でも、この自然なコミュニケーションが曲者。
人間の会話のパターンは何通りもあるし、反応もひとそれぞれ違います。
また、音声の情報を記憶できるのは視覚からの情報に比べると少ないので、できるだけ、シンプルに目的に到着するような会話をデザインする技術が求められます。
この部分がVUIデザインと言われるものなのですが、日本語ではまだ情報が少ないです。勉強したことを少しずつnoteでシェアしていけたらと思っています。
Photo by Ludovic Toinel on Unsplash