見出し画像

SRIの75年間のイノベーションについて:音声認識 〜大規模な商業利用を実現する自然な自動音声認識技術〜

「75年間のイノベーション」シリーズでは、SRIが設立された1946年から現在に至るまでの数々の画期的なイノベーションを取り上げます。SRIの英語ブログでは、2021年11月の75周年を迎える日まで、毎週1つずつイノベーションに関する記事をリリースしていきます。この日本語ブログでは、その中からいくつかを日本語にてご紹介します。

I/Oポートにおける言葉:いかにしてコンピュータが人間の使う自然言語を「解読」できるようになったか

「Nuance speech systemが行っているのは、それぞれの音を分解して分析し、話者の発言内容を正確に把握することです」ボブ・モルゲン(Bob Morgen) SRI International, 1996年

これは、チャールズ・シュワブ(Charles Schwab)が利用していたVoiceBrokerシステムにおける音声認識技術の活用に関するComputer Worldのインタビューです。

地球上の多くの生物は意思疎通をはかっていますが、人間は会話を日常のやり取りの中心にしています。地球上のあらゆる動物とは異なり、人間の言葉は複雑な文章から成り、コンテキスト(文脈や前後関係など)を定義する文法規則に基づいて構成されています。このコンテキストによって、出来事が時間と空間の中に配置されます。地方のアクセントなどの自然言語の「ニュアンス」がこれに加わると、さらに複雑になります。このような言語特有の性質は、人間の言語をより一層美しく深いものにする一方で、自然言語の使用はコンピュータとのコミュニケーションを難しくます。

画像1

長年にわたり、人類は自らの言語をコンピュータ言語に翻訳し、2つの世界を結びつけようとしてきました。自然言語の利用は、ヒューマン・コンピュータ・インタラクション(HCI)の究極の形態です。話し言葉でコンピュータと人間をつなげようとする試みは過去にも多くありましたが、SRIでは「DECIPHER」と呼ばれるシステムを開発しました。現在、このシステムの基礎は商用環境で使用されており、自然でシームレスな声を通じたコンピュータとのコミュニケーションが体験できるのです。

これはコンピュータと人間の会話を実現する為にSRI が貢献した事の1つです。

自然言語の音声認識技術の背後にある技術

音声認識のコンテキストにおいて、アクセントはユーザーを苛立たせ、開発者に難題を突き付けます。ヒューマン・コンピュータ・インタラクションで音声認識を採用する試みは数多くありましたが、ほとんどがアクセントテストに失敗しています。SRIは自然言語と音声の背後にある概念に注目し、この課題に正面から立ち向かうべく「DECIPHERプロジェクト」を開発しました。

1989年には「DARPA 音声・自然言語のワークショップ」という場を活用して、DECIPHERの背後にある技術について説明しました。DECIPHERプロジェクトに取り組んだSRIチームは、HMM(Hidden Markov Model、隠れマルコフモデル)フレームワークを用いて音声と言語の知識を統合する方法を模索しました。

マルコフモデル (Markov Model) は連結された確率変数における一連の値を予測するために使用される方法ですが、この予測は現在の状態に基づいています。しかし実際には、連鎖を構成するイベント(変数)が隠れている場合があります。人間の会話においては、これは所与のテキストの「話し言葉の一部」タグであることがよくあります。単語は見えますが、タグは隠れているのです。隠れマルコフモデル(HMM)であれば、音声認識プログラムで使用されるアルゴリズムにおいて、音声の「見える部分」と「隠れた部分」の両方を展開できます。1980年代、DECIPHERが採用したHMMアプローチは音声認識に革命をもたらし、音が実際には単語である確率を、高い精度でコンピュータが判断できるようになりました。

SRI Internationalの自然言語の音声認識に関するHMMフレームワークの活用についての研究により、音声認識の技術は商用化・実用化に向けて発展しました。その後、この研究は数多くの開発の基礎となっています。

画像2

技術の歴史における自然言語音声認識の位置づけ

SRI Internationalの音声技術・研究(STAR: Speech Technology and Research)ラボの歩みは、最終的にスピンオフ企業のCorona Corporation(後にNuance Communicationsに改名)の設立に繋がりました。Nuanceは、高度な音声認識技術の商用化に着目していました。

1995年には、SRIランゲージ・モデリング・ツールキット(SRILM: SRI Language Modeling Toolkit)が開発されました。これは、音声認識、統計的タグ付けやセグメント化、機械翻訳での使用を主に想定した、統計的言語モデル(LM: language models)の構築・適用のためのツールを提供するものです。

自然・自動音声認識の商用化において、SRIの自然言語音声認識ソフトウェアこそが大手企業に最初に導入されたシステムでした。1996年、チャールズ・シュワブはNuanceの音声認識技術を活用し、顧客が電話で株価情報を受け取れるサービスを実現しました。「シュワブ・ディスカウント・ブローカレッジ・システム (Schwab Discount Brokerage system)」の重要機能の1つは、アクセントの強い顧客が話している場合でも英語の単語を認識できる能力でした。

1997年、Nuance CommunicationsはUnited Parcel Services(UPS)向けに初の大規模な商用ダイアログシステムを開発しました。UPSは声認識プラットフォームを活用し、荷物の配送状況に関する膨大な数の問い合わせを処理しました。

2006年、Nuanceは「The Amazing Race:Mobile Text Messaging」チャレンジを開催し、音声認識技術を世界最速のモバイルテキスト入力者と競わせました。テキスト入力者が42秒以上かかった一方で、Nuance Mobile Dictationのタイムは16秒でした。

SRIが生み出す最新の音声認識技術には、以下のようなものがあります。

EduSpeak:外国語教育や企業の研修・シミュレーションで活用されています。言語学習者の発音をネイティブスピーカーの発音と比較できます。このシステムは、インタラクティブかつ複数のメディアを用いた学習向け製品の開発者が、音声入力を製品に統合するために使用することを想定した、話者に依存しない音声認識エンジンを使用しています。

DynaSpeak:コンピューティング資源の利用が小さく、話者に依存しない高精度の発話認識エンジンです。ビジネス業務用や一般消費者向け、軍用の製品・システムにおける組み込みシステムから大規模システムまで、広範な用途に対応します。

私たちは人間なので、話すことがとても好きです。SRIとスピンオフ企業のNuance社は、会話に強いアクセントがあっても、自然で複雑な会話をしてもコンピュータとコミュニケーションを取れる技術を構築しました。

今やコンピューティングの世界は、もはや沈黙ではなく、賑やかなおしゃべりに満ちているのです。

SRIで発信する様々な情報は、こちら(https://www.sri.com/ja/)からご覧いただけます。

参照元:
STARラボ:http://www.speech.sri.com/
ニュアンス・コミュニケーションズ(Nuance Communications):https://www.nuance.com/
SRIのDECIPHERシステム、Cohen.M その他、音声研究プログラム、SRI International,1989年2月: https://www.researchgate.net/publication/234810357
マルコフ連鎖、スタンフォード大学論文: https://web.stanford.edu/~jurafsky/slp3/A.pdf
Computerworld 1996年10月14日、Schwabのダイヤルアップ株価情報システム
Business Wire「Nuance Communications to Host Mobile Text Messaging Challenge(ニュアンス・コミュニケーションズがモバイルテキスト入力チャレンジを主催)」 2006年: https://www.businesswire.com/news/home/20061016005419/en/Nuance-Communications-Host-Mobile-Text-Messaging-Challenge

編集/管理:熊谷 訓果/ SRIインターナショナル日本支社

#SpeechRecognition #ComputerScience #VoiceAssistant #Innovation #75YearsofInnovation