
人間の声を自動でテキストに!
皆さん、以前の記事では「顔認証」についての話をしました!
顔認証については理解していただけましたか?
↓記事はこちら。
今回は、PLEN Cubeの持つもう一つの機能「音声認識」についての話をしたいと思います!
まず音声認識とは
音声認識とは、人の言葉をテキスト化し、それによってコンピューターが理解し行動する技術のことです。
皆さんの身近なところだと、「Siri」や「アレクサ」にも音声認識技術が使われています。
また、ときどきYouTubeの動画で自動生成された字幕が使われていることがあります。
これもまた音声認識の技術により、人が話した言葉を自動的に字幕に起こしています。
こういった音声認識の技術ですが、どんな仕組みで出来ているのでしょうか。
音声認識の仕組み
まず人間が声を発してからテキストになるまでに、大きく分けて4つのステップがあります。
最初のステップは、マイクが拾った音声のデジタル化です。
コンピューターが理解しやすいように音声データを整理します。
次に音声分析で特徴量を採取し、音声を文字にマッチングさせます。
(特徴量というのはデータを分かりやすく数値化したものです。
例えば人間でいうと、身長・体重・年齢なども特徴量です!)
続いて単語辞書との照合を行います。
音声がどの単語に近いかを照合し、単語ごとに置き換えます。
最後に単語をつないで文章にします。
このとき文章の学習データを大量に蓄積しておくことで、正しい文脈で文章を作ることが出来ます!
ですがここで問題があります。
人が使う言葉には「曖昧な表現」が含まれているのです。
なので大量の会話データから構文や意味を理解し、人の言葉を処理する技術である「自然言語処理」という技術を使います。
こうして人間が話す言葉をだんだんと学習していくことで、人工知能は言葉を理解できるようになっていきます。
ここで膨大なデータを基に分析をおこない、決まったパターンを発見し、正確な予測を立てるために使われる技術が「ディープラーニング」です。
ディープラーニングとは、人の神経細胞の仕組みを真似たシステムを用います。
こうしてディープラーニングは、音声認識はもちろん、顔認識などの技術の向上にもつながりました。
接客業でも音声認識が使えるようになる!
近年、ロボットの活躍が工場やオフィスに広がってきましたが、サービス業である接客はまだまだ人手に頼っています。
ですが、実は接客の仕事には定型化されたものが多い場合もあるんです。
そういったものは自動化できると私たちは考えています!
例えば、飲食店での注文受付。
PLEN Cubeは一問一答式の対話ができるので、人間の代わりに注文を受け取ることができるんです。
また注文を受け取るだけでなく、顧客名簿を作り注文履歴も作ってくれます。
こうすることでお客様個人に向けたサービス、つまり常連さんの対応が出来ます!
実際にPLEN Cubeが注文受付をする様子はこちらからご覧ください!
音声認識の難点
実は音声認識にも難点があるんです。
一連の動作をするには音声を正確に聞く必要があるので、ザワザワしたところだと読み取れなくなる場合があります。
ですが、普段のカフェなどであれば問題なくPLEN Cubeが働いてくれます!
また、これから技術もさらに向上していくと考えています!
これからのPLEN Cube!
これからPLEN Cubeは、サービス業の人手不足の救世主のような存在となるかもしれません。
個人的にはPLEN Cubeが、私はどんなメニューが好きなのかを分析し、新しいメニューをおすすめしてくれたら面白いなと思いました。
顔認識による出欠確認のときと同様に、今の問題をどんどん解決していってほしいです!
いかがでしたでしょうか!
最後まで読んでいただきありがとうございました。
この記事を気に入っていただけた方は、スキとフォローをお願いします♪
YouTubeの動画もご覧ください。いいねとフォローもお待ちしています!