第4話「コミュニケーションロボット」ーいま流行りの人口知能を使ったコミュニケーションでは一体何ができるの？正しく知識を整理してAIを活用しよう！

2023年5月22日 15:30

近年では、深層学習の発達により、音声認識の精度が格段に向上しています。前節お話ししたコミュニケーションロボットを始め、AIを活用してコールセンターにおける顧客の大量の音声データを高度な音声認識と感情認識で企業の経営課題を解決する音声ビッグデータ・ソリューションなども存在します。音声データの収集が進んだことで音声認識の精度自体が大きく向上させる要因になったのではないかと考えられます。

では、技術的なお話をしてみたいと思います。音声認識によって音声を文章に変換するプロセスには、細かく分けて3つのステップが存在します。1つ目のステップが、音波を音素へと変換するステップです。音素とは、言語学・音韻論において、母語話者にとって同じと感じられ、また意味を区別する働きをする音声上の最小単位となる音韻的単位を指します。「あ」は「a」、「か」は「k-a」として発音されますが音が空間中を伝わる時は全ての音が波として伝わります。その波をaやkなどの子音と母音の意味のある音素へと変換するステップが最初のステップです。

2つ目のステップがその音素を複合して単語へ変換します。音声認識は、音の波を音素、単語、文章へと変換していきますが、1つ目のステップの結果、コミュニケーションロボットが人と会話をする音素の並びが「r-o-b-o-t-o」だったとします。この場合、人の発する言葉を聞く能力が必要ということには、「ロボット」という単語が発話されたと解釈します。音声認識というのは、人の発する言語の理解が必要なのです。3つ目のステップが、単語同士の連なりを人工知能が理解してテキストなどに変換する技術のことを指します。

「wa-ta-si-wa-ro-bo-tto-de-su」という音素の列が入力された場合には、「わたしはろぼっとです」という日本語を出力することができます。この出力結果は、最終的に、「私はロボットです」という文章へと変換する必要があります。単語と単語の切れ目や、前後の単語との関係性を間違えると、「輪足しはロボットです」という文章や「渡しはロボット出す」という意味不明な文章になり意味が通じない文章になってしまいます。

このように音声認識技術は3つのステップを経て変換が行われますが、文章へと変換するステップです。音声認識では、それぞれ独立して実施できるものではなく、複合的なアルゴリズムによって文章点を確定させていく必要があります。ただ、未だ海外外国語の壁や方言の壁などたくさんの課題を抱えています。

第4話「コミュニケーションロボット」ーいま流行りの人口知能を使ったコミュニケーションでは一体何ができるの？ 正しく知識を整理してAIを活用しよう！

いいなと思ったら応援しよう！

第4話「コミュニケーションロボット」ーいま流行りの人口知能を使ったコミュニケーションでは一体何ができるの？正しく知識を整理してAIを活用しよう！