オライリーの Designing Voice User Interfaces を読んでいる(2章Part1)
前回で第1章まで終わったので今回は第2章。
この章ではVUIデザインの基本的な原則について紹介されている。この章は特にボリュームが凄いので何回かにわけてまとめる。
この章で説明するのは、VUIを設計する際にコマンドによるコントロール型でやるのか会話型でやるべきかを検討する方法、そのサービスを初心者が使うのか慣れている人が使うのかでどのように対応するかを考える方法、そして特に重要なのはうまくいかなかった時の対処法である。
まずは会話のデザインについて
まず最初に筆者は以下のような会話って現実には起こらないよねというところから話を始めている。
友達「新しいスターウォーズの映画見た?」
わたし「見たよ」
友達「あれ面白かった?」
わたし「すみません、わたしにはわかりません」
ようするに「わたし」は今現在の音声アシスタントで、「あれ」が理解できず適切な返答ができなかったという話。
「会話のデザイン」とは、多くの人々が「こう言われたらこう返す」という単一のやりとりを指しがちだが、複数回のやりとりをデザインできてこそ「会話のデザイン」だと筆者は述べている。
それも、単一のやりとりの後に別の発話をアシスタント側から強要するわけではなく、「次の発話を予期して備えておく」ようにしておくのがいいらしい。
個人的にこれはユーザーさんから「こいつは言えばわかってくれる」という期待をある程度してもらわないとそもそもアディショナルな発話をしてくれないだろうからとりあえずアプリ/スキルレベルで対応してなんとかなるもんでもない気がする。
次はもう少し具体的なテクニックの説明に入る。この項では「Setting User Expectations」、すなわち「ユーザーさんにしてほしい発話をこちらで誘導する」方法について述べられている。
例として、以下のような会話のデザインの失敗例が紹介されている。おそらくメールを送信する例。
アシスタント「送信してもよろしいですか?変更しますか?」
ユーザー「はい」
アシスタント「すみません、わかりません」
この例では、アシスタントは「送信して」か「変更して」という発話を予想していたものの、「はい」と言われたため理解ができなかった。人間でもちょっと戸惑う回答な気がする。
この場合では「送信する。か変更する。どちらがいいですか?」という質問のしかたをすべきだと述べられている。
この例ではいいかもしれないけど、あまりやりすぎると会話が機械的になりすぎてしまいそうなので難しいところではある。
また、「発見可能性」についても重要性が紹介されている。基本的に音声で提供するサービスは、目に見えるものがほとんどないので、「どのタイミングで」「何ができるのか」をなんとかしてユーザーさんに気づいてもらうことが大事だと述べられている。
この「なんとか」は、例えばユーザーさんが日常的に使っている言葉に上手く反応できるようにすることが挙げられている。
例えば、知ってる人も多いかもしれないが、Androidのカメラは「チーズ」とか「撮影」というだけでシャッターを切ることができる。
「チーズ」なんかは普通にカメラを使っているときに自然に使う言葉なので、日常的に使っているユーザーさんに気づいてもらいやすい。
他にもAmazon Echoなんかは「Are you working?」 とか 「Are you connected?」 とか自然に聞いちゃうであろうワードで端末の状態が確認できる(日本語ではどういえば反応してくれるのかわからなかった)
次は第2章、会話のデザインに使われるツールについて紹介する。