音声革命の鍵となるVUIデザインは近現代で拡張されたデザインの代表例

2020年10月23日 11:24

新型コロナウイルスの影響により、外出自粛・休校・テレワークが日常となったことで音声メディアが活発化している。

近年でいうと「Voicy」「stand.fm」「REC.」「Spoon」などの音声アプリが話題で、音声配信プラットフォームの「Radiotalk」も先日3億円の資金調達を発表した。ラジオアプリ「radiko」の会員数は1000万人近いという。

スマホ中心の音声メディアの勃興は、映像メディアがテレビからYouTube・TikTokに移行したように、一見すると「スマホが起こす音声革命」のように思えるが、実はスマホの普及は「音声革命」のひとつの要因にすぎない。

スマートスピーカーの普及によって家に音楽・音声が流れる環境が増えてきていること、AirPodsなどのワイヤレスイヤホンの進化によって運動中・通勤中・仕事中に音を「ながら」で聴くことができるようになったこと、そして冒頭に記したコロナ禍の影響もあって、車文化の欧米諸国ではすでに日常となっていた新時代の音声メディアが、ようやく日本で流行の兆しを見せているのである。

このような音声アプリを制作する際、デザイナーと呼ばれる職種の役割はUIデザインに留まらないことが多い。

そもそも「デザイン」とは今まで一般的に「視覚」領域のものであった。

視覚領域において意匠計画や図案、設計を手掛ける人のこと。
（Wikipedia「デザイナー」より）

しかし、音声アプリのデザイナーは、視覚よりむしろ聴覚、そしてユーザーの「体験」に重きをおいてサービスを設計することが主務となる。

世間では数年前から「これからはUXデザインが重要である」とよく言われているが、なぜUIだけでなくUXが重要だと言われているのかの説明として、音声メディアのデザインは分かりやすい事例だと思ったので、紹介する。

一時的UXで画面を触らない体験

UX白書で定義されている4つのUXの中で、実際にサービスを体験している瞬間のことを「一時的UX」という。

「りんご狩り」というサービスでいえば、

ということになる。

基本的にアプリの「一時的UX」はもちろん画面を触っている瞬間のことなので、画面の作り込みすなわちUIデザインが重要となる。

しかし音声アプリは、他のアプリと違って「一時的UX」のフェーズで画面がほぼ触られないという性質がある。

実際、音声コンテンツを聴いている最中には、スマホ画面を凝視することはなく、作業をしたり、ボーッとしたり、目を閉じたりしているのがほとんどだろう。

Voicyのデザイナーである京谷実穂氏も、デザインカンファレンス「Designship」にて以下のように語っている。

朝起きてGoogle Homeで天気と今日の予定を確認します。通勤中にVoicyでニュースを聞きます。（中略）もうお天気をみるためにアプリを開こうと思わなくなりました。
（「Designship 2018」京谷実穂氏の登壇内容 より要約）

だからといってもちろんUIデザインを疎かにしていいという意味ではないが、デザイナーがアプリの設計をしようと考えるときに、その対象は初めから広い範囲の「体験」を想定しなければならないということだ。

ちまたではVUI（Voice User Interface）/ VUX（Voice User Experience）のデザインとも言われている。

VUIデザインは、ユーザーの音声入力に対してデバイスからどのような反応を返すのかを設計することを指します。簡単に言うと、ユーザーとデバイスのやりとりをシナリオライティングするようなものです。ユーザーが目的を達成するためのスムーズなシナリオを考えるのがデザイナーの役割です。
（WD ONLINE「音声体験をつくるVUI/VUXデザイン」より）

そう、VUIデザインとはシナリオライティングなのである。

制限こそがサービスをサービスたらしめている

音声メディアのシナリオライティングというのは、具体的にいえば

・その音声コンテンツはどこで聴かれるのか
・どのような体勢で聴かれるのか
・聴いてる最中に何をするのか
・どういう気持ちのときに聴かれるのか
・どの時間帯に聴かれるのか
・どれくらい長く聴かれるのか
・ひとりで聴くのかみんなで聴くのか
・スマホで聴くのかスマートスピーカーで聴くのか

これらを定義していき、ひとつの物語としてつなげていくことだ。

人の「体験」をベースに考え、音声コンテンツの仕様と、それを配信するアプリのインターフェースの仕様を設計していくことが、音声メディアにおけるVUIデザイナーの役割となる。

あらゆる「体験」の可能性からひとつのシナリオのみを「正しい」と決定していくため、シナリオライティングとは制限していくことだともいえる。

たとえばVoicyでは「10分」、Radiotalkでは「12分」とそれぞれ一回あたりの収録可能分数が制限されているが、これはそれぞれ「10分」と「12分」がひとつの音声コンテンツを聴く体験として区切りが良く、最適だと考えたためにこの仕様となっており、それに準じてアプリのインターフェースも次のエピソードを次々に選べるように設計されている。

制限こそがサービスをサービスたらしめているのだ。

また、Radiotalk・Spoon・stand.fmは誰でも自由に投稿できるような仕様だが、Voicyは投稿者を審査で絞っており、ある程度影響力があると判断された者しか配信ができない。配信される音声コンテンツのクオリティをあげるための制限だ。

以上で例にだしたのは目に見える制限だけれども、もう少し踏み込んで考えると見えない制限があることに気づく。

とあるスーパーマーケットの駐車場にヤンチャな若者がたむろして困っていたスタッフが、ある日から駐車場のBGMをクラシック音楽に変えたら一切彼らが寄り付かなくなったという話がある。

若者たちは「ここは俺たちの場所じゃない」と判断したのである。

それと同じで、アプリにも「ここは俺たちの場所じゃない」をあえて感じさせて、見えない制限をかけることで、自分たちのアプローチしたいユーザー層を守っていることがあるのだ。

分かりやすい例でいうと、運営が設定するおすすめのカテゴリーそのものにターゲットとしている「層」が表れている。音声アプリの一番上のカテゴリーが美容ならば、そのアプリで想定されているのが主に美容系の音声コンテンツだとユーザーは判断するだろう。

こういった見えない制限も含めて、制限はサービスの方向性を決定づけることは間違いない。

まとめると、目指す「層」と理想の「体験」によって音声コンテンツの内容と分数が決まり、その制限によって最適なインターフェースが決定される、ということになる。

これを一気通貫にデザインすることは、すなわちサービスそのものを設計することとなんら変わりない。

VUIデザイナーの苦労とやり甲斐が伺える。

音声コンテンツに収まらない「音の体験」

さらにいうと、音声コンテンツに収まらない「音の体験」にも一貫性が求められるだろう。

音声アプリの中には、投稿者もしくはユーザーが指定するBGMが流れる仕様のものがあるが、このBGMもアプリの視聴体験に大きく関わる。

stand.fmは投稿者が自らの音声コンテンツに対してひとつひとつBGMが設定できるが、用意されているものは言ってしまえばすべて「おしゃれで落ち着きのある音楽」と分類できるようなBGMで、投稿者としてはその雰囲気に沿った音声コンテンツを投稿せざるをえない。

つまり、用意するBGM次第で投稿される音声コンテンツの種類・雰囲気が変わり、それによってユーザー層もユーザーの視聴体験も大きく変わってくるということだ。

また、たとえばVoicyではコンテンツを再生するときに「カチッ」という音が鳴るが、このような効果音も他のアプリと比べて格段に重要になる。なぜならば、ユーザーにとってはその効果音も含めて「視聴体験」となるからだ。

同様の理由でジングルも重要となりうるが、動画と違って現状の日本の音声メディア・コンテンツではジングルが設定されているものは少ない。

以上のように、VUIデザインとは、その音声メディアを通じて得る「体験」を考えた上で実際に「ユーザーが触れるもの」に落とし込むということであり、その「ユーザーが触れるもの」にあたるのは、アプリのインターフェースといった視覚的なものだけではなく、BGMや効果音といった聴覚的なものも含まれるということになる。

実際にそういった音をつくるのはサウンドデザイナーと呼ばれる別の職種の人だろうけれども、VUIデザイナーは彼らに対してどのような視聴体験が理想なのかを言語化し、それに相応しい音声コンテンツとインターフェースを明確に示した上で、どのような音がほしいのかを伝えるべきなのである。

デザインの拡張とデザイナーの定義

近現代において、スマートフォンに始まりタブレットやスマートウォッチなどのデジタルインターフェースが増加して顧客とのタッチポイントが多様化し、サービスの利用文脈も複雑になったことによって、デザインの対象範囲は拡張され続けてきた。

これまで見てきたように、VUIデザインはそんな拡張されたデザインの代表例といえる。

今後IoTやXRなどの技術が発展していくにあたって、音声での入力はどんどん進化し、日常化していくだろう。

Wikipediaの「デザイナー」の項目から「視覚領域」という単語が削除されるのも、そう遠くない未来なのかもしれない。