見出し画像

信号の相関と知覚する音像,音色変化

音場再現手法(いわゆるシーンベース)とは別の立体音響手法の分類として,オブジェクトベースとチャンネルベースの手法があります。
これらの手法は一般に多くのスピーカを用いて所望の空間を作り上げることになりますが,この時の音像の幅,深さ,高さの知覚,包まれ感,さらには手法の根幹的なアルゴリズムに至るまで広く関わるのが「信号の相関」です。
この記事では信号の相関と各種パラメータの関係,知覚との対応までをざっくりと書いています。

IACCと知覚

IACCはInteraural Cross Correlationの略で,両耳間相互相関度と和訳されます。これはいわゆる室内音響物理指標*であり,ダミーヘッドを用いて測定されます。IACCはコンサートホールにおける主観的な空間印象,特にASW(Auditory/Apparent Source Width: みかけの音源の幅)やLEV(Listener Envelopment: 音に包まれた感じ)を評価するための重要な指標の一つとなります。ASWは「先行音(直接音)の到来方向に先行音と時間的にも空間的にも融合して知覚される音像の大きさ」と定義され,LEVは「みかけの音源以外の音像によって聴き手のまわりが満たされている感じ」と定義されています。ASWとLEVの評価指標としてはいくつかありますが,IACCは両方ともに(初期部分や全体を使うか後期残響部分を使うかの違いはありますが)対応するとされています。


B&KのHATS(Type 4128C)を使用したダミーヘッド録音
HEAD acoustics HSⅢを使用した測定

IACCは簡単に言ってしまえば,ダミーヘッドの左右の耳に入ってくる信号がどの程度相関があるかという指標です。IACCが高い(1に近づく)ほど両耳に相関の高い信号が入ってきていることになるので,summing localizationを考えれば明確な音像を知覚することになります。一方,音の到来方向が側方になるほど,両耳間相関度が小さくなるため,IACCが低い(0に近づく)ということはみかけの音源の幅が大きくなる,おおざっぱにいえばゆるやかな音像知覚になります。

*残響時間など室の状態を特徴づける物理指標。多くは室内インパルス応答から求められます。

ディザと相関と知覚

よく誤解されるディザリングの話です。
詳述されている記事が多くあるため詳細は語りませんが,一般に量子化を行う際には量子化誤差が発生します。そのため量子化誤差による信号の劣化,情報の欠落は避けることができません。特に入力レベルが低い信号や,入力レベルが高くともごくゆっくりと変化する信号については,量子化雑音が入力信号と強い相関を持った歪みとなり,非常に問題です。そこで量子化雑音を白色化する(入力信号と無相関化する)ために,ディザと呼ばれる確率変数(雑音)を量子化前に付加しておいて量子化後に減算することで,ディザなしの場合と比較して量子化雑音電力を増加させずに入力信号と相関のない雑音にできます。(雑音付加によるマスキングではない)

Decorrelationと知覚

サブウーファの記事などでもよく扱っているDecorrelationの話題です。詳説は別記事にて行おうと考えています。特にライブサウンドや立体音響の実験においては,複数スピーカ配置によるパワーアレイやコムフィルタが問題となります。これは受音点依存の音源からの距離差によって位相干渉が周波数ごとに発生する現象であり,これを避けることは従来は不可能でした。しかし近年,ディジタル信号処理が広く普及してきたことにより,これを克服しようという研究/実用が進んでいます。それがdeccorelation(無相関化)であり,先述のディザリングを応用した話です。立体音響の研究では古くから扱われてきた手法ですが,各スピーカ出力の信号を無相関化することで,位相干渉を低減(波高加算ではなくエネルギー加算にする)します。具体的な手法はいくつか考えられますが,白色性(ランダム位相特性)を持たせたオールパス特性FIRフィルタを信号へ畳み込むといったものがあります。近年の研究においては,ライブサウンドのシステムにも応用できるような最小位相系(遅延最小)で周波数ごとに減衰特性が異なるFIRフィルタを作成し,サブウーファを含めたシステムでの会場内での周波数特性の分散を低減することに成功しています。

FIRフィルタの一例,最速で表れているインパルスで原音を保存しつつ,続くランダマイズされた部分で白色化している。

ただしこの手法は良いことづくめではなくいくつか明確な欠点があり,そのうち知覚できるようなミックスに影響しうる音の変化についてここで触れようと思います。

一つ目は音色劣化についてです。オールパス特性とはいえ位相特性のランダム性を上げていくと明確に知覚できるレベルで音色が劣化していきます。これはランダム性の程度をある程度抑えることで許容できる範囲に抑えることが可能です。

二つ目は時間特性の変化です。このFIRフィルタは位相特性を大きく変化させるため波形保存されません。そのため時間特性,特にトランジェントのアタック部分への影響が大きく,明らかにアタックが鈍った音になってしまいます。これに対してはトランジェント保存アルゴリズムが提案されており,それを適応したFIRフィルタを使用することである程度軽減できますが,完全な解決はできていません。そのためミックスに対して少々過剰なトランジェントシェイピングを行うシチュエーションが出てくる可能性は否定できません。

三つ目は相関の低下による空間印象の変化です。先述したように両耳に入る信号の相関と空間印象には相関関係があります。deccorelationによってスピーカから出力される信号の相関が低減された場合,IACCが低下することが想定されるため,明確な音像知覚というよりも包まれ感やゆるやかな音像知覚になる可能性があります。これについてもランダム性の程度を調整することで調整可能な範疇です。またこれらの相関が低減している状態の中に相関が非常に高くアタックの鋭い音が混ざる場合はその音が必要以上に目立つ場合があるため注意が必要です。

これらいくつかの欠点はありますが,あまりに大きな恩恵があるため,これらの側面を理解した上で使用する価値は大いにあると考えられます。

ライブサウンドにて実用されている際たる例として,L-acoustics社のL-ISAがあります。一般に空間でもエイリアシングが発生し,波長の1/2以上の距離で配置される素子においては音場再現などの波面の合成は不可能です。いわゆる波面合成技術もこの範疇にあるため,ライブサウンドのような大規模会場で数メートル単位でスピーカを配置する場合,ごくごく低周波数でしか波面の合成はできません。そればかりか,空間的なエイリアシングによる折り返し歪みが発生し,望まぬ音色劣化や想定していない方向への音像知覚が起こってしまいます。そこで各スピーカの出力に対してdeccorelationを施すことで,空間での位相干渉による歪みを防ぐ効果が期待できます。(L-ISAに限らずほとんどの手法ではこの手法を取り入れていることが想定されますが,明確に公言しているものは現状L-ISAのみです)

Deccorelationプラグイン

あまり有名な手法ではないほか,信号処理への深い理解が必要なため,decorrelationを採用している機器やプラグインは多くはありません。筆者が一番使用しやすいと感じるものはフィンランドのaalto大学が開発したSPARTAというプラグインバンドルの sprata_decorrelator が挙げられます。

プラグインGUI

筆者としてはランダム性に関連しているDecorrelationパラメータは最大でも0.7程度が限界かとは思います。またBypass Transientsはチェック必須です。これによりトランジェントが保存されるアルゴリズムになります。
このプラグインバンドルはaalto大学独自のSIRRという立体音響手法や高次Ambisonicsのエンコーダ/デコーダ,多チャンネル畳み込み,パンナー,マイクロホンアレイを利用した到来方向推定やビームフォーミングなどかなり面白いプラグインが多くある上,無料でダウンロードが可能です。詳細はこちらからどうぞ。

この記事が気に入ったらサポートをしてみませんか?