音声が伝える情報を逃さず捉えるための技術

2023年6月1日 00:31

みなさんこんにちは。フェアリーデバイセズです。
今回は我々の事業領域でもある「音声」に関して技術的、学術的な内容をお伝えします。

はじめに

「音声言語処理技術」と聞くと, 音声を文字に書き起こすための技術（音声認識）や, 書き起こした文字を機械で解析・解釈する技術を想像されるかもしれません. しかし音声には, 例えば話し手の声色や息づかいのような情報も含まれています. このような文字に書き起こせない情報は, 従来の音声言語処理技術ではあまり扱われてきませんでした.

実際のコミュニケーションの現場を考えてみると, 私たちは音声に加えてジャスチャーや表情などを使って, 多種多様な情報を意識的または無意識的にやりとりしています*1. 音声・非音声を問わず, これらの文字化できない情報のことを総称して「非言語」情報と呼びます. そして非言語情報の中でも, 話し手が音声を使って, 意識的に相手に伝えようとする情報のことを「パラ言語」情報と呼びます. 本記事では, このパラ言語情報について考察します.

パラとは「周辺的な, 補足的な」という意味です. パラ言語情報とは, それ自体は文字にできないものの, 言語情報によって伝達される「命題」を補完したり補足したりすることを目的として発話される情報です. 以下にパラ言語情報の例を挙げます.

音声ファイルをダウンロードしてご確認ください。

肯定的態度（「うん！」）

否定的態度（「うん！？」）

態度保留（「うーん...」）

疑問の意図（「夏は好き。」は平叙, 「夏は好き？」は疑問）

感情表現（「は〜！」は感激, 「は...！？」は怒り）

これらの情報は, 文字に起こすと大半が失われてしまいます*2. そのため既存の音声言語処理技術では, パラ言語情報によって伝達される細かいニュアンスを取り扱うことが困難でした. 今後, 機械がパラ言語情報を正しく認識したり生成したりすることができるようになれば, より自然な人と機械の対話が実現できると期待されています.

そこでこの記事の以下のセクションでは, パラ言語情報を工学的に取り扱うための近年の取り組みについて紹介します*3. さらに, 技術の進展によって今後実現しうる, 人と機械のコミュニケーションの将来の展望について考察します.

人・機械コミュニケーション研究におけるパラ言語情報

人がどのようなタイミングで, 何を伝えるために, どのような種類のパラ言語情報を使うのかは, 古くから人同士のコミュニケーションの観察と分析によって研究されてきました. 近年では, この知見を人と機械とのコミュニケーション（対話システム）に応用する研究が盛んに行われています. 以下, 最新の取り組みを目的別に解説します.

ユーザと機械との対話タイミングを円滑にする

人同士の対話ではお互いの視線やパラ言語情報を見ながら, 発話交替のタイミング（話し手がいつ話し終え, 聞き手がいつ話し始めるか）を相互に調整していることが知られています. 対話システムにおいても, ユーザの発話交替の手がかりを正確・高速に推定することが重要です.

例えば, 次のような対話文を考えてみましょう.

ユーザ : 明日の会議の場所ってどこだっけ。
システム : 明日の予定は2件あります。１４時からと
ユーザ : ええそうだった
システム : １６時からの会議がありますが、どちらについ
聞きたいですか？
ユーザ : １６時
システム : 明日の１６時の会議は第３会議室です

文字に書き起こすと, 一見, 正しいやりとりができているように見えます. しかし, 以下のようにパラ言語情報を加えてみるとどうでしょうか.

ユーザ : 明日の会議の場所ってどこだっけ。
システム : 明日の予定は2件あります。１４時からと
ユーザ : ええ【...？】そうだった【？】
システム : １６時からの会議がありますが、どちらについて聞きたいですか？
ユーザ : １６時【！？】
システム : 明日の１６時の会議は第３会議室です

ユーザは「１６時の会議」が予定に入っていることに驚き, 想定外だったことがわかります. そのためシステムは発話を続けるよりもいったん中断して, ユーザの後続発話を聞くのが適切なやりとりであると言えます.

この例のように, パラ言語情報は発話交替調整の機能を担っています. システムが発話交替のタイミングの推定に失敗すると, ユーザが話し終わってもシステムが応答しなかったり, ユーザが話している最中にシステムが割り込んでしまったりして, ぎこちなく, 間が悪いという印象を与えてしまいます. 近年では言語情報とパラ言語情報の組み合わせによって, 高い精度で高速に発話交替点の推定ができるようになりつつあります.

ユーザが伝えようとしているメッセージを機械が正しく認識できるようにする

人同士の対話では, シンプルかつスムーズな意思疎通のためにパラ言語情報が重要な役割を果たしています. 例えば肯定のメッセージは「はい, あなたに賛成です」と言わなくても「ええ。」と下降調のイントネーションで相槌を返すだけで明瞭に伝わりますし, 質問をしたい場合は「これを食べてもいいですか」と言わなくても「これ, 食べていい？」と語尾上げのイントネーションを使うだけで伝わります.

このように, 人はパラ言語で伝えられるメッセージはパラ言語で表現し, あえて冗長な言語化を行わないコミュニケーションに慣れているため*4, 機械がパラ言語情報を理解・処理できない場合, どのように意図や態度を伝えればいいかわからずに戸惑ってしまう場合があります. 旧来の音声対話システムを使いこなすために多少の練習や慣れが必要だったのは, これが大きな理由と言えます. しかし近年, パラ言語情報の認識技術の発展は目覚ましく, 対話システムへの応用の観点からは以下の認識が試みられています.

発話意図の認識（肯定, 否定, 依頼がある, 疑問がある, 考え中である, etc.）
自身の内的な心的態度の認識（納得できない, 満足である, 躊躇している, 羞恥, 自信がない, etc.）
相手に対する社会的態度の認識（尊敬的, 友好的, 誘惑的, 支配的, etc.）
スタンスの認識（あるトピックに対する賛成反対, 立場表明, 思想信条, etc.）
感情の認識（喜怒哀楽, etc.）

機械が発するメッセージをユーザがより直感的に理解できるようにする

パラ言語情報が伝えるメッセージは, 言語情報を正確に聞き取れなくても聞き手が直感的に理解できるため, 言語情報を補完したり, 緊急性の高いシーンやリラックスしたシーンでの情報伝達に役に立つと考えられています. 例えば, 以下の応用例があります.

聞き取りやすく, 内容を覚えやすいイントネーションの発話生成
説得力のある（カリスマや権威を感じさせる）発話生成
緊急時の注意喚起を促すイントネーションの発話生成

ユーザと機械の双方向コミュニケーションを活発化させる

人同士の対話では, パラ言語情報でお互いのパーソナリティ（性格）を伝え合ったり, 発話のリズムを同調（エントレインメント）させたりすることは, 信頼感・親密感の構築のための重要な過程であると考えられています. これらの知見を応用し, パラ言語情報の認識と生成の技術を組み合わせて, 人と機械の双方向コミュニケーションを活性化させようという研究も試みられています. 人と機械の同調は困難なチャレンジではあるものの*5, 以下のような研究があります.

相互にパーソナリティ（性格）を伝達する発話の認識・生成
相互にポライトネス（礼儀度）を伝達する発話の認識・生成
同意や理解を示す発話の認識・生成
共感を示す発話の認識・生成
声の高さ・調子・ポーズの同調の生成

人と機械のコミュニケーションの将来の展望

この記事の最後では, これまでに紹介してきたパラ言語情報を取り扱うための様々な技術（パラ言語処理技術）が組み合わさることで, どのような未来が実現できそうかを考察します.

柔らかいユーザインタフェースの実現

パラ言語処理技術によって, 家族や友人に接するように堅苦しくなく, より気楽で直感的な機械との対話が可能になります. はっきり言葉に出して指示を伝えなくても声の調子でユーザの言いたいことを察してくれるインタフェースや, 真剣に聞き取らなくてもなんとなく言いたいことが理解できる音声システムメッセージなどが, 今後実用化されていくでしょう. 言語情報での厳密なやりとりが求められない日常生活やカジュアルなシーンにおいては, 特にこのような堅苦しくない, 『柔らかい』音声インタフェースの有用性が高いと考えられます.

対話的で信頼できる業務支援エージェントの実現

ビジネスや公共の場においては, パラ言語処理技術は的確なタイミングと話し方で業務支援やアドバイスを行う音声対話エージェントを実現するための要素技術となります. 従来の業務用対話システムはコミュニケーション手段が限定的だったため, 補助的な支援ソフトウェアとしての扱いが主流でした. ユーザのパラ言語情報を正しく理解し, ユーザとの社会的関係を尊重しながら双方向のコミュニケーションが実行できる音声対話システムは, 信頼できるエージェントとしてユーザの業務に密接に関わっていくことができるでしょう.

また, パラ言語情報からユーザの心的状態（イライラしている, トラブルが起きている等）やユーザ間のスタンスの違いなどが認識可能なエージェントは, 人同士の会話の調整役としての役割も期待される存在になることでしょう.

共感できて親しみのわくパートナーとしての機械の実現

人のパートナーたりうる音声対話エージェントを実現するためには, 単に優秀で賢いだけでは不十分で, ユーザにとってその機械がどのような存在と認識されているかを把握し, 失望させないことが重要です. 人は対話相手には, パラ言語情報を理解し・表出する能力があることを暗黙のうちに期待しています*6. したがってパラ言語情報による双方向のコミュニケーションが可能な機械は, ユーザの期待を裏切りにくく, より優れたユーザ体験を提供することができます.

ユーザに親しまれるためには機械が人の心情に寄り添うことも重要です. 非言語情報と言語情報の組み合わせによって, ユーザの感情状態や心的態度を推定する技術は日進月歩で改善しています. また, 機械に感情状態を持たせて, 声によって表出させることでユーザとの共感状態を作る研究もあります. 機械の感情状態はユーザの信頼を損なわないように慎重にデザインする必要がありますが, 成功すれば豊かなユーザ体験を作り出せるでしょう*7.

最後に, 多くの研究者・デザイナーが指摘しているように, 人のパートナーたりうる機械は, パーソナリティ（性格傾向）及び行動原則の一貫性を保ったデザインがなされていることが極めて重要です. 例えば誠実である・内向的である・好奇心が強いなどのパーソナリティは, 言語情報と同じかそれ以上にパラ言語情報によって伝えられます. したがって, 一貫性のあるデザインのためにはパラ言語情報の制御が欠かせません.

人が人のパートナーを見出すときと同様に, ユーザによって好ましいと感じる機械のパーソナリティは様々です. これからは, 様々な個性を備えた機械の中からユーザが『馬が合う』パートナーを選ぶ時代が来るかもしれません. 音声対話エージェント・ロボットの多様化の時代において, パラ言語情報の認識・生成は主要な要素技術となるでしょう.

参考文献

[1] 森大毅, 粕谷英樹, 前川喜久雄, 日本音響学会 (編集), "音響サイエンスシリーズ12 音声は何を伝えているか感情・パラ言語情報・個人性の音声科学," コロナ社, 2014.
*1: 人が情報のやりとりに利用している様々な手段のことを, コミュニケーションチャネル, またはモダリティ（モーダル）と呼びます.

*2: 意図や態度を句読点（! や !? など）で表したり, 感情を顔文字で表したりするなど, テキストメディアで言語情報以外の情報を表現する工夫も様々に試みられています.

*3: 音声の芸術的表現（歌唱音声・演技音声など）はパラ言語情報に含まれますが, これらのテーマはそれぞれ独立した幅広い研究領域を含むため, 本記事の対象にはしません.

*4: あえて言語情報とパラ言語情報に別々の態度や意図を込めて発話する場合もあり, これは一般に皮肉と捉えられます（例えば, 「私は賛成ですけど！？」など）. 皮肉ではパラ言語情報の方が真意に近いとされます.

*5: 一部のユーザは対話システムに合わせて自分の話し方を変えようとする（学習効果）ため, システムからのユーザへの同調は慎重にデザインしないと, ユーザの発話の調子を崩してしまう場合があります.

*6: ユーザにこのような期待を抱かせないように機械の見た目を制限するのが, 現在の音声対話システムのデザインの基本的な方針と言えます. パラ言語情報を認識・生成可能な機械は, より多様なデザインが可能になるでしょう.

*7: ユーザの感情に同調して感情表現を行う機械はユーザの強い思い入れを促しうる, ちょっと危険で面白いテクノロジーだと言えます.