![見出し画像](https://assets.st-note.com/production/uploads/images/142159990/rectangle_large_type_2_10f4a7e09dfb865ce27e143046b39660.png?width=1200)
技術が認められるとき
ドロシー(妻)の最近の悩みは、お父さんとの会話で大きな声を出さないといけないことだ。「大きな声で話さないといけないのって、ストレスなのよ」とドロシーはいう。
彼女は声楽の勉強をしていたので喉を大切にしている。もう年齢的に他の人の前で歌うこともないと言っているし、「声が出なくなった」とも言っているが、それでも普通の人以上に、喉のことは気になるらしい。
お父さんとの会話に関しては、「近所の文房具屋で売っている画用紙とかで筆談にしたら?」とは言ってみたものの、ドロシー曰く、やっぱり筆談は手間だし、面倒ならしい。
今日、知り合いと何人かでZoomで話しているときに、Zoomの文字起こし機能の話になった。Zoomの文字起こし機能はそれなりに性能がよくて、既に「ああ、これなら使える」というレベルになっている。
「でもね、岡田さん。スマホも便利だよ。知り合いの耳の遠いおじいちゃんと話すときに使ったんだけれど、ほら、耳元で大きな声で話すと、本人も嫌ならしくてあんまり内容を聞いてくれないんだよね。それがスマホを間に挟んで音声認識アプリの文字を見せながら話すとすっごく分かってくれてさ~」という。
使っているオススメは何?ときいたら、"YY文字起こし"だという。
惜しむらくはApple製品用しか出ていないが、ドロシーはiPhoneを使っているので、試してみた。
これがかなりいい。ユーザーインターフェースがとてもシンプルで、使い始めるまでの敷居が低い。文字の大きさも大きいし、なによりリアルタイムでの音声認識機能が必要十分に高い。ドロシーの前で実演してみせると、「これなら使えそう!」という。
英語で、"the very last person"という表現があるが、ドロシーこそ、私にとってのIT技術の最後の関門なのだ。そして彼女が「それ面白い。使ってみたい」と言ったものは大体、その後、世の中を席巻する。
1990年代でいえば、Voice on IPや Video on demandがそれだ。「へ~、アメリカに3分10円で電話できるの? それすごくいいかも」「映画が観たいときに観られたらそれは確かに便利ね」とか。今回のリアルタイム音声認識アプリに対する反応は、そのときのノリに近い。
もちろん、リアルタイム音声認識の技術は、それこそ1990年代より前からずっと技術は積み上げられてきて、ここにきて、いよいよ花開いたと言える。それはちょうどZoomのようなビデオ会議アプリケーションと似ている。ビデオ会議アプリケーションも1990年以前から技術的にはさまざまなトライをされてきたものだが、2017年あたりから一気に普及期に入り、いまでは多くの人が日常的に使っている。
リアルタイム音声認識もZoomのときと同じようなタイミングを感じる。ITがあまり得意でないと自認する、たとえば福祉系の仕事をしている人にとっても「これなら使えそう」と思えるタイミングと技術の成熟度なのだ。
Zoomについては下記のような記事を2018年に書いたら、トータルで20万ビューを超えた。それぐらいに人々の潜在的なニーズは存在したのだと思う。
リアルタイム音声認識も潜在的なニーズは高いはずだ。どの製品が勝ち馬になるかはまだわからないが、この技術が既に圧倒的な普及期に入りつつあるということが、ドロシーの反応をみていると感じられる。