REWのERB Smoothingについて
はじめに
部屋の音響特性を比較的簡易に測定できる素晴らしいフリーソフトウェアにRoom Acoustic Wizard (REW)というものがある。REWそのものについては日本語でも各種解説が手に入るのでここでは書かない。REWのSmoothingの実際についてもここなどで詳しいので参照されたい。Smoothingで何が変わるのか具体的にまず把握するのにもよいでしょう。REWで生成するEQの結果にもSmoothingは影響します。なんだと?
さて、そういったものの代わりに本記事ではREWのERB Smoothingについて、ERBってなんなのかとか蝸牛にまつわる音響生理・心理学的実験の成果がなんであったのかの歴史のごく一部についてを、紹介する。でもアーニャ、おんきょうしんりがくきらい。むずかしいから。
とはいえ、まずはREW。Clarityの各指標だとかDistortionなんかに加えて、Group DelayとかWaterfall Plotあたりのタイムドメイン系の指標まで生成できるのが楽しいですね、REW。やらない理由はない、とまでは言わないけど、例えばもし自分のスタジオに低域の激しいディップやピークがあることがわかって気になるとしても、知るに越したことはないです。生活の知恵としては知らぬが仏かもしれないが、音楽制作ってそれ自体は生活ではないので。やっぱ芸術にはサディスティックなマゾヒズムが必要だからね、うん。
まあいいとして、この記事はREWのグラフのSmoothingに特化したものである。こんなnoteいったい誰が読むんだろう。そう、あなたです。
REWを使ってみよう
なにはともあれREWを使ってみよう。測定マイクがない。最初に尻込みするところだけれど、例えばみんな持ってるSonarworks Sound ID Referenceに付属しているマイクなど、なんでもよい。たまにセールしてますよね、Sonarworks。ともかく、キャリブレーションデータのファイルが手に入るマイクさえあれば、実際に測定できる。ちなみにSonarworks付属マイクのキャリブレーションデータはここの下の方にあります。
実際の測定結果と各種Smoothing(一部)
さて、測定して見ましょう。これはとある日のJ Studioの結果です。
で、みてのとおりREWで測定した周波数特性は、そのままだと細かすぎて見にくい(A)。ハイは真っ直ぐだなとか、ローはガッタガタだな、程度しかわからない。ここで大まかな説明として、なんで細かすぎるという判断がなされるのかというと、それはまず第一にニンゲンの生理的な聴覚分解能というものが測定マイクほどは高くないという事実(実験による測定)がある。細かい差も大事だけど、まずは大まかな差を比較することに価値があるわけですね。そこで実際の聴感に近いカーブにするために、細かすぎる測定値を平均化(B, C, D)するSmoothing機能がREWには備わっているのです。やってみましょう。
さてこんな感じで1/1、1/6とERBでそれぞれSmoothingしてみたものを比べてみる。見ての通り、(B) 1/1 Smoothingはオクターブの幅で平均化する荒い平均化である。(C) 1/6はオクターブの1/6区切りで平均化するそこそこ細かい平均化である。なんだか見やすくなりました。で、(D) ERBってなんなのか。わからない😭 本を読んですこしわかったのでその知見をここにラフにまとめておきます。
ERB Smoothingの定義
ここでまず、ERB Smoothingの定義について書いておく。REWから抜粋引用。前半はVariable SmoothingとPsychoacoustic Smoothingの説明で、ここでは取り上げないので無視してもらって大丈夫です。取り上げない理由はERBだけで十分なんじゃないかなって思うからです。私が。で、水色の下線部分がERBの説明。
ひとまず水色の下線部を訳して見ましょう。前半の段落から。
はて、さっぱりわからない。文字通り訳しただけだが、日本語の意味が普通にわからない。わかるわけがない。わかる人いないでしょ。まあアーニャはわかったが?ふふふ でも一旦置いておこう。とりあえず先に進めよう。後半は、こう。
これはわかりやすい。ERB (がなんなのかは一旦置くとしてそれ)に従えば、低域ではニンゲンの耳の周波数解像度が低く1オクターブ刻みの平滑化で近似できる一方で、高域になるにつれ近似の周波数的な解像度は細かくなるということを言っている。これはあとで詳しく書くけど、実験で測定された人間の聴覚生理学的な聴覚能力がそういう結果になっていて、それに近似する方法の一つがERB Smoothingだからですね。
ここで勘のいいフレンズはまず疑問に思うかもしれない。
「ERBは(107.77f+24.673)Hzなんでしょ?一次線形増加だよね?だったら高域ほど幅が広くなるわけだから、高域ほど狭いってのは言ってること逆なんじゃないの?」
それは正しいけど間違ってます。まあこの疑問を持ったフレンズってのは私のことですがそれはいいとして、結論的にはこういうことですね。周波数帯域ってオクターブにしてもf特にしても対数ですよね。なのでERBが線形1次で増えようがREWの周波数特性の対数グラフ上では高域ほどREBは狭くなる。はい、そゆこと。対数グラフの前では一次増加なんてカスみたいなもんです。
さてさて。具体的にそれぞれ実際のSmoothingのスクリーンショットB, C, Dを見比べてみると、DのERB Smoothingの低域はBの1/1 Smoothingに一致し、一方で高域はCの1/6 Smoothingに一致して見える。低域は大枠で滑らかに、広域は細かく滑らかに、という感じ。この中間のハイブリッドいいとこどりなんですよね。でもいいとこ取りをするには選択の根拠がいる。それのひとつがERB。
というわけで結果的に後半の内容(低域は荒く、高域は細かくSmoothing)が理解できればREWを使う上で実用上の問題はない。もう少しだけ説明すると、ERB Smoothingとは、音響心理学的知見に基づいたERBという概念を利用して、REWの測定結果をニンゲンの耳の周波数解像度に合わせて実際の聞こえ方に近くなるように簡便に近似するための方法の一つということになる。どうですか?根拠も示してないのに同じ結論を何度も言われるとなんとなくそういうものだと思えてくるでしょう?これはヴィトゲンシュタインの新聞です。アーニャ、せんのう、すき。 ここまで読んでもERBって何?と気にならない読者はここでこの記事を読み終えてブラウザのタブを閉じてください。
ERBとは
ここから先はERBって何?と気になる人向けの内容になる。この記事の本題ではあるけど、今読み返しても需要なさそうや。まあええ。
さてERBは前述の通り、Equivalent Recutangular Bandwithの略である。これは直訳すれば相同な矩形(四角形)の帯域という意味だ。どういう意味?ふふふ。アーニャは、わかったが? 意味不明でしょう。
とりあえずまず「なんに」相同なのか、という疑問が浮かぶ。これは結論的にいうとバンドパスフィルターの台形に近い形状で示される帯域と同じ通過量と相同な通過量をもった四角形で近似的に置き換えた際の帯域である。
聴神経と特性とバンドパスフィルター
なんで突然バンドパスフィルターが出てきたの?と思いましたね?まあアーニャはすぐにりゆうがわかったが? 私は思いました。その答えはひとまずこう。蝸牛-基底膜-聴神経の音響生理学的な特性が、音響学的にはバンドパスフィルターが付随したマイクとして近似できる(と、いろんな実験結果から推測される)から。
なぜ近似するのか
近似の目的はモデル化の簡素化、もしくはモデル計算の簡素化である。計算が楽になって便利だから。楽したいじゃん。苦労は買ってでもしろってのは陰謀ですよ。人生楽であれば楽であるほど素晴らしいのです。具体的にはREWの測定結果をワンクリックでSmoothingするのに便利だからである。ちなみにどういう計算を具体的にしているのかは知らない(REWのサイトには書いてないと思う。読んでないけど)。
蝸牛基底膜とフーリエ変換
突然なんだ?私もそう思いますがこれちょっと面白いんですよ。
(ある程度訓練された)ニンゲンの耳は、一定以上の差を持つ異なる二つの周波数をそれぞれ独立したものとして認識できる。つまり入力された複合波を、独立した複数の正弦波に分解できる能力がある。このことから推測するに、人間の聴力はフーリエ変換(の近似)を行うことが事実上、可能である。
すっごーい!!蝸牛はフーリエ変換が得意なフレンズなんだね!?
しかしながら、驚くべきことにこの能力を担っているのは、中枢神経系のニューロンネットワークによる論理学的演算ではない。それ以前の蝸牛の段階、つまり末梢神経の器官であることが実験からわかっているそうです。かわいそうな動物に生きたまま聴神経に針を刺してその神経興奮を測定してみると、蝸牛から以後中枢へつながる聴神経では、すでに周波数ごとに分離された電位が独立して伝達されていることが示唆される実験結果があるそうなのだ。い、いつのまに!?落ち着け。
つまりフーリエ変換は聴神経以前にすでに起こっている……ってコト?
基本的にはそうです。たぶん。
20世紀以後、こうした音響生理学およびさまざまな測定法の理解と進歩に沿って、さらにいろんな実験が行われた。その結果から次章のようなことが現在では定説として受け入れられている。各実験について詳しくは、ムーア (1994)「聴覚心理学概論」を読んでください。
現在のコンセンサス
蝸牛は、その入り口となるあぶみ骨・前庭窓から渦巻き状に進みながら細くなってゆく音響的な筒状の構造として捉えることができる。蝸牛の音響的特性として、入り口から近い部位ほど高音域に共振のピークがあり、入口から遠く奥に行くほど低音域に共振のピークがシフトする。したがって蝸牛は、入力された周波数に対して全体が均一に振動するのではなく、つねに特定の一箇所だけが一番強く共振するような選択的音響共鳴管として振る舞う。その結果、常に特定の箇所の基底膜が他の基底膜より強く振動することになり、その基底膜に一致する特定の聴神経が他の聴神経よりも強く電気的興奮を引き起こすこととなる。つまり、蝸牛は総体として入力周波数とある程度の精度で一対一で対応した個別の電気的興奮をそれぞれ独立して中枢に伝達できるシステムとなっている。事実上これはフーリエ変換と等価の機能を実現できているといえる。
すっっごーい!!!
いや普通にすごいだろこれ。
唐突な余談
脊椎動物はその初期の胚発生において、これまでの下等動物とは異なり、第4の胚葉ともいわれる神経堤細胞のナイスでスムーズなオーガナイズにより圧倒的な心肺能力と五感の性能の大幅な増強を成し得た、なんて総説がいつしかのNatureかなにかに載ってました。その脊椎動物が新しくゲットした、もしくは大幅に増強した能力の一つに、当然ながら聴覚があるわけですよね。私は残念ながらニンゲンではないという残念な設定でTwitterをやってはおりますが、まあその私ではないという設定になっているニンゲンがこうして音楽が楽しめるのも、神経堤細胞のおかげ。発生初期にいろいろ指令を出して聴覚を形成してくれたからなのです。ありがとう聴神経。ありがとう神経堤細胞。
聴神経とBandwithあるいはQについて
ここでさらにポイントなのが、周波数特異的に対応したそれぞれの聴神経は、反応する帯域幅があるということだ。つまりそれぞれの聴神経は、一定の広さのQを持ったバンドパスフィルターがセットになったマイクのようなものとして振る舞うことになる。前にでてきたやつね。ほら、だんだん本当にそうなんじゃないかって気がしてきました。
例えば100Hzに対応した聴神経は、概算で前後約35Hzの幅まで反応し、1kHzに対応した聴神経は前後約130Hzの幅まで反応する、みたいなことです。この聴神経の生理活性の振る舞いはバンドパスフィルター的に近似できる要素があるわけだが、これをさらに簡易に矩形(四角形)にみなしたものがERB、ということになる。ようやくERBに戻ってきた。ここで先述の「ざつなず」をもう一度、参照してください。
実験で特定の帯域の周波数を聴覚に入力するときは実際の電気的なフィルター回路を使うわけで、それはすなわち さっきかいたざつなず スロープのある台形になるわけですね。なので古典的な音響生理学の実験ではそれぞれの聴神経はこのバンドパス的な特性を備えているという前提で議論がなされていた。いわゆる等価回路のようなものですね。これがこの界隈の伝統芸だったようです。けどREWの場合、あるいはただ計算するだけなら、四角形の方が簡単だからね。これがREWのSmoothingに採用されているというわけである。こんな感じの説明でおおむねいいんじゃないかと思います。違ってたら是非教えてください。
これって私の感想ですよね(おまけ)
ちなみに学問的なコンセンサスは知らない——めんどくさいから調べていない——けれど、REWの説明を読む限りVariable SmoothingやPsychoacoustic Smoothingは、ERBに比べてさらに簡易な近似法に思われるので、とりあえずよくわからなかったらERB Smoothingを選んでおくでいいんじゃないかなあと私は思います。それってあなたの感想ですよね。そうです。いくつか試してみてしっくりくるのを選べばいいでしょう。そういえば音響心理学の世界ではほかにもいくつかモデルがあります。ERB以外にもmel尺度やBark尺度があります。ここに書いてあるので興味がある方はぞうど。
ここから先は
¥ 100
この記事が気に入ったらチップで応援してみませんか?