オライリーの Designing Voice User Interfaces を読んでいる(1章前半)
前回は序章についてまとめたので今回は1章についてまとめる。
この章では、まず簡潔にVUIの歴史をその肝でもある音声認識の歴史に照らし合わせて紹介している。
音声認識の歴史はわりと古く、1950年代にはベル研究所が数字の発話を認識させている(ザッと論文とか調べてみたところ、1から9までの数字を電話越しの声で認識するものだったみたい)。ついで1960年代から70年代に研究は続けられ、複数個の単語を認識させられるようになっている。もう少し進んで1990年代には日常的に使えるレベルの音声認識システムが生まれてきたらしい。
そして最初のVUIの波が来る。これはInteractive Voice Response(IVR)と呼ばれる。
IVRは要するに宅配便再配達自動受付サービスなどに使われているアレで、これによりボタンのプッシュや音声でシステムとの対話が可能になった。これは2000年初期にフライトの予約や送金、もろもろの注文サービスなどに広く使われた。
第二の波はいわゆる「音声アシスタント」だ。SiriやCortana、最近だとAlexaとかGoogle Assistantも日本に上陸してきている。
これが簡単なVUIの歴史だ。最初の波と第二の波で出来ることが全然違いかつそれが搭載されるハードウェアの特性も結構変わっているが、Personaの設定やError Recoveryなど今でも参考になるものがいくつかあるので当時の本を読んでみるのもアリらしい。
次に「なぜVUIなのか?」について紹介がされている。主なVUIの強みは以下の4点。
- Speed
文字入力のプロと比較しても喋った方が早く文章を入力できるらしい。
個人的にはそれよりも入力装置である口が体についていることがかなりデカいと思っている。
- Hands-free
運転中や料理中などでも使えるしマルチタスキングする上でそもそも手しか使わないの不合理だよねということが書かれている。
- Intutiveness
re:Inventでも基調講演で触れられていたが、会話の方法は誰でも知っているので学習コストかからないよねということが書かれている。
スマホの使い方がわからないお年寄りでも使える。
- Empathy
どちらかというと出力の話で、声には「トーン」に感情などの情報を付加できるよねということが書かれている。
これは声に限らずとも方法はある気がするがどうなんだろう。
他には、スマートウォッチなどの小さな液晶やそもそも液晶がないデバイスについては声でやった方がいいよねということも書かれている。
そう考えるとコンピュータの小型化によってキーボードを載せるのが難しくなってきたからVUIが注目されたのだろうか。
というかIot機器だったりスマート○○だったりのいわゆるPCの枠組みを越えたコンピュータ(この単語が適切かは自信がない)が増えてきててそれらにキーボード載せるの不合理だよねみたいなのから始まっていたりするのだろうか。
また、もちろんVUIは万能ではなく、以下の場合は適用しない方が賢いとのこと。
- Public spaces
例えばオフィスでスタッフがみんなPCに向かって「先週開いてたWordのファイル開いて」とか言ってたらカオスだろうと例が挙げられている。Alexa for Business....
パーソナルなものに適用しなければそれなりに上手くいきそうな気はする。受付にPepper置いといてもまぁそれなりに便利ではあると思うし。
- Discomfort speaking to a computer
一般的にはなってきているけど、まだまだ公共の場で機械に話しかけるのは抵抗あるよねということが書かれている。
これは時間が解決するんじゃないかなと思う。覚えてない人もいるかもしれないけど数年前はイヤフォンを通して電話をするのはとても奇怪に見えてたし自分も恥ずかしくてわざわざマイク部分持って通話してたし。
- Some users prefer texting
まだユーザーさんは声で操作するより文字入力に慣れ親しんでるから移行を望まないかもしれないという話。まぁこれも時間が解決するのではと思う。
- Privacy
個人的には一番問題だと思う。文字入力と違って音声は第三者も簡単に受け取ることができてしまうから漏れてヤバいものは音声で受け渡しするなということ。
これらを踏まえて「本当にVUIを導入することがユーザーさんの利益に繋がるのか?」ということを考えて導入しましょうというのがこの節の話。
長くなってしまったので一旦切って後編に続ける。
この記事が気に入ったらサポートをしてみませんか?