少し専門的な音声処理の話1
音声処理は歴史的に見ても信号処理の基本的手法を生み出してきた分野です。
しかし音声処理は分かりにくいと言われています。画像と違って目に見えないからです。
本稿では音声処理の概要について説明します。
音声処理
音声処理とは、音声信号を分析して何らかの特徴パラメータを取り出し、それに基づき合成や認識などを行うことです。
目的に応じて伝送・蓄積・分析・合成・認識など種々の技術的側面があります。以下に例を示します。
・音声を音響特徴量へ変換する音声分析
・音声から言語情報を取り出す音声認識
・話者情報を取り出す話者認識
・音声を作り出す音声合成
・圧縮して記憶・伝送する圧縮・符号化
音声処理の流れ
処理の仕組みを直感的に理解するため、まずは人間が音声を認識するメカニズムから説明します。
「音」 とは空気の振動です。 具体的には振動によって周りの気体分子の圧縮と膨張が繰り返され、隣の分子に衝突して気体の疎密状況を次々と伝えていく現象です。その振動が空気を伝って人の耳に届くことで初めて音を知覚します。
そして耳に伝わった振動が「耳小骨」によって増幅され、「蝸牛」によって神経の電気信号に変換され電気信号が脳に到達することで音を認識します。
つまり音を聴くと一口に言っても、正確には 「知覚段階」と「認識段階」があります。
音声処理は後者の「認識」に該当します。
スピーカーで拾った音をノイズ処理によって音源分離し、そこから言語情報を取り出し(音声認識)
言語情報を解析します。
音声情報の構成
前述したように、音の本質は空気振動から成る波です。その波を構成する要素は2つあります。
・振幅(=音の大きさ)
・周波数(=音の高さ)
振幅は「量子化」周波数は「標本化」によってデジタル信号として記録されます。
量子化とは、信号の大きさを離散的な値(デジタル値)で近似して表すことです。大きさを表す際に用いるビット数を量子化ビット数と呼び、これが大きいほど振幅を細やかに表現できます。
標本化は(別名サンプリング)、連続的なアナログ信号を⼀定の間隔を空けて測定し、離散的なデジタル信号として記録することです。一般に、記録したい信号の周波数の、2倍以上の周波数で記録を行えば、元の波形を完全に復元することができます。これを標本化定理と呼びます。
(例、4Hzの信号を記録したい場合は8Hzの間隔で記録すれば良い)
音声処理に必須の前提知識
音声処理で最もよく使われる解析は周波数解析です。この周波数解析には三角関数の知識が必要です。そもそも波は正弦波(sin)で表されるため、前提知識として必要です。
中でも特に重要なのが「フーリエ級数」です。
どんな複雑な波形でも、様々な正弦波の組み合わせで表すことでができるというものです。
この考えは様々な問題で使われ今や電気工学、振動解析、音響学、信号処理等々の幅広い分野で用いられています。
音声処理のポイント
・ラベリング
ラベリングとは、音声の各部分に対して、対応する音節や音素の記号を割り当てることです。ラベリングすることで、音声のどの部分がどの言葉に対応するか明らかになります。連続して発声された音声中の、音節や音素の境界を検出することは非常に困難です。
・特徴量の抽出
人間の聴覚的な諸属性と、音声波形の物理的な現象ができるだけ整合するような特徴量を選定する必要があります。それによって音声処理が効果的かつ容易になります。
・音声情報の取捨選択
全てのデータ解析に言えますが、冗長な成分をできるだけ捨て、有意な情報のみ選択的に抽出することで情報圧縮を実現できます。
音声処理の難点
・様々な音質への対応
場面・状況に応じて音質は変わります。例えば書かれた文を読む場合と、談話・会話の場合では発声の仕方が異なります。
・音声学(調音・音響・聴覚)の理解
音声解析するにあたって人間の発声メカニズムは勿論のこと、語彙・構文・意味・音声バランス (音素や音節の出現頻度、結合頻度) など言語構造の理解も欠かせません。
・生理学的要因の数量化
音色や調性感、嗜好など心理表象に属する評価を行う際に定量化する必要があります。また、音に対する人の生体反応を客観的に捉える測定や心理尺度の分析が重要です。
音声処理の知覚・心理的側面
音は最終的に人間の耳で聴きます。そのため単に音波の物理的性質を考慮するだけでなく、知覚や認知的側面の考慮も重要になります。
また信号のどの部分が聞こえるかは、人間の聴覚系の生理だけでは決まらず、心理学的属性も大きく影響します。そのような面を解析する学問分野を音響心理学と呼びます。
以下に音響心理学の応用事例を示します。
・音楽再生システムの設計
・軍事分野における音響兵器
人間の音声知覚の特性
代表的な人間の音声知覚の特性について説明します。
・経時マスキング効果
ある大きい音が鳴ったとき、その直近(約20ms前〜約100ms 後ろ)までの時間帯に鳴った別の微小な音は聞こえないという現象です。
・同時マスキング(周波数マスキング)
ある周波数の大きい音が鳴っているとき、それに近い周波数で鳴っている別の音が聞こえなくなる現象です。
・カクテルパーティー効果
多くの音の中から、自分が必要としている情報や重要な情報を無意識に選択することができる脳の働きです。
例えば、パーティー会場など騒がしい場所でも、遠くの人の声に注意すると聞き取れることがあります。
・ノイズキャンセリング
不要な音に対し、反対の波(逆位相)を作り出し打ち消すことです。
・ハース効果
同じ音が複数の方向から同音量で発せられたときに、最も早く聞こえた音の方向から全てが聞こえているように感じる現象です。
・マガーク効果
特定の音節を発音する口の動きに、別の音声を重ねた映像を呈示した場合に、視覚情報・聴覚情報のどちらでもない第3の聞こえ方をする錯覚現象です。
例えば、「ば」と発音している音声に、「が」と発音している人の口の映像を合成したとします。そのとき、目を開けて動画を見ながら声を聞くと「だ」と聞こえます。
私達は対面で相手の音声を認識するときに、目に見える口唇の動きの情報を無意識に使っています。