CDのマスタリングを見解く（中編）

2024年11月21日 22:23

前編のつづきです。
※長くなってしまったので中編と後編に分けましたが、実質これが本編です

マスタリングエンジニアとは

ここから先は、ほぼほぼ私の主観による考察というか、
ただの感想を書いていくのですが、
その前に、マスタリングエンジニアに必要なことは何かを考えてみます。

まず仕事として、クライアントの要望に応えることがマストになるので
その為の技術や知識、経験のほか、音楽への造詣や感性も必要だと思います。

そして技能としては、
やはり「耳の良さ」が何よりも大事だと思いますが、
特に、立体音響を扱う上では音像を俯瞰で見る能力が重要になると思います。

スタジオの設備の面では、
マスタリング前後の音質や音像の変化を正確に把握する必要があるため、
音質のフラットさや実直さだけでなく、
立体音響としての正確な音像描写（正確なステレオフォニック再生）が高いレベルで要求されます。

※この正確なステレオフォニック再生は、実はミキシングの工程では必ずしも必要ではなく、モニターの音に多少問題があっても成立するため、
そのような制作環境による差異を補正するのもマスタリングの1つの役割になります

さらには近年、マスタリングの技術の進歩には目覚ましいものがあるので、
最新のテクノロジーを取り入れて研究し続ける向上心も大事だと思います。

というわけで、
私はマスタリングエンジニアを心から尊敬しているのですが、
それは長年、CDの音を見てきたからこそ汲み取れる部分でもあるので、
それが少しでも伝わることを願いながら、ここから先を書いていきたいと思います。

音像の見え方

まず先に、音像の見え方を説明します。
（おそらく誰でも同じではないかと思うのですが、とりあえず私の見え方を書いていきます）

基本的には、直接音（音源）の周りに反射音があるという構造で、
直接音を示す部分の濃さに対して、反射音は薄いというように、音像の中で濃淡があります。

直接音の見た目の大きさ（正面から見た面積、または体積）は、
どちらかといえば、音源の音域が高いほど小さく、
逆に、低い音ほど大きくなります。

反射音の見た目の大きさや形は、そのまま音の広がりとその方向を表しますが、
その外の空間（無音部分）との境目は、自然に減衰していることもあれば、
くっきりと視認できることもあります。

直接音と反射音の境界は通常グラデーションになっていますが、
例えば立ち上がりの鋭い引き締まった音など、
直接音が明瞭なほど、その境目ははっきりしていて、

逆に、音域が低くなるか、または反射音の量が多くなるほど、
その境目は（ぼやけるように）曖昧になっていきます。

この曖昧さは、直接音がない音（例えば壁越しに聴こえる雑多な音など）にも同じことが言えて、
透過音や反射音が混ざることで多少の濃淡はあっても、
それぞれの音の境目は曖昧なまま、全体的には1つの音像として視認できます。

実は、「音場」と呼ばれるものもこれと同じで、
音場という名の空間の広さの知覚は、全ての音像をまとめてひとつの音像として捉えるような感覚になります。
（つまり、音場もひとつの音像とみなせます）

とりあえず以上が、静止画的な見え方の説明になりますが、
当然のことながら、音は時間の経過によって変わる（減衰する）ものなので、
どの音像も発生から消失までを、動画のように連続的に見ることができます。

その見え方の変化には当然、聴感上のトランジェント（アタックからリリースまでの時間的変化）が反映されているので、
それらの特徴や、自然さ不自然さというものを視覚的にも感じ取ることができます。

また、音像はイメージなので、
目で見たものを記憶できるように、音像の大きさや形やその時間的変化などを、
聴感上の音の情報（音質など）と結び付けて、包括的に記憶することが可能です。
（つまり、音の情報の中に音像のイメージが追加されるので、記憶として残せる情報量が増えます）

なお、あらゆる音を俯瞰で見れるようになると、
完全にとは言えませんが、
「目で物を見る」のと同じような感覚で、
その時に聴こえている全ての音の音像の位置や形、それらの動きも含めて、
瞬時かつ同時かつ継続的に把握できるようになります。

このようなスキルを身に付けたい方は、こちらの記事を参考にトレーニングしていただければと思いますが、
音像の見え方にも関係する話なので、少しだけ補足説明させていただきます。

音像の解釈

音像は視覚的なものですが、
何故そのような見え方、捉え方が出来るのか考えてみます。

人が普段、目で見ているものの多くは、光の反射（弱い光）が映し出すもので、
「光源」（強い光）を直接見ることはほとんどありません。

それに対して、音は「音源」（大きい音）を直接捉えることが多いので、
目と耳とでは、対象の強さに対する「感度」の基準が違うと考えられます。

人の耳が、「音源」に注目しやすい感覚（選択的聴取）を持っていたり、
オーディオで大きい音を「良い音」と感じるのは、おそらくそのためです。

またその感度ゆえに、「音源｣の位置を把握することは比較的得意なのですが、
その音源がもたらす「反射音」（弱い音）を捉えることが、人は生まれながらに不得意と言えます。

したがって、音像という音のイメージを得るには、
普段の生活から「耳を澄ます」といった、音の感度を上げるトレーニングが必要となり、
（耳の良い人は不要かもしれません）

「弱い音｣を捉えることで、光のような濃淡（強弱）を伴った、音像という立体的な「形」を認識できるようになります。

それに加えて、自分を中心とした空間のなかで、あらゆる音の強弱を「俯瞰」で捉えるトレーニングをすることにより、
目で物を見るように「音を見る」ことも可能になります。

なお、音の感度が上がれば相対的に「耳が良く｣なるので、
オーディオを大音量で聴かなくても、音の違いが分かるようになりますし、
それは耳をいたわることにもなります。

音圧を上げるとは

マスタリングで音圧を上げるとはどういうことなのか、
音質面の話（聴感上の歪みなど）は置いておいて、とりあえず空間的にその振る舞いを考えてみます。

まず、波形はそのままで音量（アンプのボリューム）を上げたとします。

その場合は、おそらく誰もが予想したとおり、
どの音の成分も同じ位置に同じ分（比率）だけ音が加わることになるでしょう。

では、マスタリングで音圧を上げるとこれがどうなるのか？ですが、
当然、波形のピークには記録（フォーマット）上の上限があるので、そのまま音量を上げるようにはなりません。

もし仮に、同じだけ音圧を上げられたとしても、
例えば次の図のように、その位置が変わってしまったりするのです。

これは、位置を変えることで無理やり音を詰め込んでいると考えることも出来ますが、

理屈はどうあれ、これは観測から得られる1つの事実として、
音圧を上げれぱ上げるほど、音像の大きさや位置や形が変化してしまうと言えます。

それぐらい大した事ないのでは？と思うかもしれませんが、
例えば複数の音が同時に鳴っていれば、空間はどこも音で埋まっている状態なので、
特に反射音などは、位置が変わることで他の音と相互に干渉してしまい、
本来あるべき音の分離感を損ねてしまいます。

またこのような音像の歪み（ゆがみ）は、
そのまま音質にも影響する（連動している）と考えられ、
マスタリングではこれらをどのようにコントロールするかが重要になります。

音像の大きさ

では、音圧を上げると音像が変わってしまうことは避けられないとして、
ここでまず、マスタリングの方向性として大きく2つのタイプに分けられます。

まず1つ目は、音源（直接音）を重視して、音像を小さく維持しようとするタイプです。

こちらのタイプは、音は明瞭なままで分離感もよく、音質は良い傾向にあります。

ただ、相対的に反射音が少なく（削られる感じに）なりがちで、
空間的な量感に物足りなさを感じたり、全体的に音の線が細くなったりと、
音の迫力などは出しにくいようです。

またそれと同じ理屈で、
音像としては本来大きいはずの低音も小さくコンパクトになりやすく、
音の広がりや量感もなくなることから、
聴き心地の良さといったものはあまり感じられない印象があります。

ただ、ホームオーディオにおいては、
再生時にスピーカー等の響きが加えられる場合が多いので、
音質面も含め、このタイプのほうが好まれるんじゃないかと思います。

もう1つの方向性はこの真逆で、
音を引き締めずにそのまま拡大して、音像を大きくするタイプです。

こちらのタイプは、やはり空間的な音の重なりが増えてしまうので、
音の明瞭度や分離感は劣ってしまうのですが、
音像としての量感があることで、迫力や一体感が出やすいようです。

また、反射音が豊かで広がりがあることから、
音が伸びやかになり、聴き心地は良くなる傾向にあります。

おそらく、音像を大きくしたほうが音圧は稼ぎやすくて、
小さく維持するほうが技術的には難しいのではないかと思いますが、
いずれも一長一短あるので、どちらが良いという話ではないのかなと思います。

※ちなみに、世界的なエンジニアのTed Jensen氏は2つのタイプを使い分けてる感じです

肉付けの方向と再生難度

先ほどの図では、音像を平面の図で書いてしまっていますが、
実際の音像は立体的で、形があります。

したがって、音像を大きくしたり肉付けをする（音を足す）ときの空間上の方向によって、また違いが出てきます。

とはいっても、
ステレオフォニックは基本的に左右方向と前後方向（奥行き）しか再現できないので、
大きくわけてその2タイプになるのですが、

ここで、ステレオフォニック再生の「スピーカー2本を横に並べる」という物理的な制約が大きく関わってきます。

どういう事かというと、
ステレオフォニック再生はそのスピーカーの配置ゆえに、
左右方向の音像再現が比較的容易なのに対して、前後方向（奥行き）の音像再現が非常に難しいという特徴があるのです。

私の肌感覚では、
左右方向の音源定位＜（上下）左右方向の音像再現、前後方向の音源定位＜＜＜前後方向の音像再現
の順で、再生の難度が上がるイメージです。
（定位はあくまで位置で、音像は形も含むものと考えてください）

そして現状、一般住宅におけるホームオーディオにおいては、
前後方向の音像再現はほぼ出来ていないと考えられるので、
（イヤホンやヘッドホンの聴取においても、再生方式の不一致により前後方向の完全な再現はできません）

「どんな再生環境でも同じバランスで聴こえるように調整する」というマスタリングの1つの目的としても、
この特性はとても重要なポイントになってきます。

まず、左右方向を意識した音の肉付け（補強）ですが、
おそらくは再生のし易さが音質面で有利に働くことから、
周波数特性の良いフラットな音質になっていることが多いです。

解像度が高いものも大体このタイプで、
また、透明感のある音質になりやすい傾向があるので、
そのHi-Fi的な鳴り方（私のイメージです）は、オーディオファンに好まれるんじゃないかと思います。

一方で、奥行きの成分が少ないことから平面的な音になりやすく、
音の拡がり方や消え方といった、
トランジェントの面での不自然さみたいなものを感じることも多いです。

ジャンルとしては、打ち込み系などのデジタルなサウンドに向いている感じですが、
音質や再生のし易さのアドバンテージから、汎用性は高いと言えそうです。

もう1つの、前後方向を意識した音の肉付け（補強）では、
どちらかといえば、ハイとローが抑えられたナローレンジな周波数特性になりがちで、
音質面では何かしらハンデがあるように思います。

その一方で、おそらくトランジェントの再現性が関係しているのだと思いますが、
リアルで生々しい音だったり鮮やかな音を聴かせてくれるのは、ほぼこちらのタイプです。

また、音に厚みや力強さを出せるのもこのタイプなので、
ジャンルとしてはロックをはじめ、アコースティックな音源に向いている感じがします。

その他には、これもトランジェントの関係か、
音のキレや抜けの良さといった部分とも繋がりがあるようで、
それらを重視したマスタリングでは、R&Bやダンスミュージック系と相性が良いようです。

※この辺りの違いはまだ自分でもよく分かっていないのですが、主に直接音の前後方向が音の厚み、反射音の前後方向が音のキレや抜けに関係していそうな気がします

なお、低音が良いエンジニアさんは、
やはり前後方向を意識して肉付けをしているように感じることが多いのですが、
音楽において低音は、その土台ともなる重要な部分なので、
この辺りは特に、エンジニアの個性が出やすく、また技術的に難しいところだと思っています。

このように、音像の前後方向に見られる特徴には重要なものが多いのですが、
残念ながら、よく「マスタリングが悪い」と言われるCDのほとんどがこちらのタイプで、
これは前述した、
ホームオーディオにおいて正確な音像再現がいかに難しいかを裏付ける、1つの証左となっています。

このようなCDは私が確認した限りでは、
前後方向に音像を拡大しているケースや、シャープな肉付けをしているケースなど、
全体的に前後方向の情報量が多くなってしまっているようで、
やはりそれだと、再生時に音像が歪む（音の干渉が起こる）確率も割合も高くなってしまう、ということなのでしょう。

それをマスタリングの問題とするか、再生環境の問題とするかは議論の分かれるところですが、
このような音源の違いを聴感だけで判別するのは非常に難しいので、
（たとえ音像が見れても、歪みの原因を特定するには経験が必要だと思います）
まずは、こういった事情を知っておくことが大切なのかなと思います。

音像（音場）の軸

これまでの図では、音像の肉付けに際して、
音の全ての周波数成分が同じ位置で加わることを想定していましたが、
実際にはそんな都合良くはいかないようです。

これは私のイメージなのですが、
音の空間に座標軸（XYZ）があるとして、
その座標軸は高域から低域まで、音域ごとに存在していると考えてみてください。

本来であれば、どの音域でも、
座標軸の原点（中心の位置）とスケール（XYZそれぞれの長さ）は同じになるはずですが、

マスタリングで音圧を上げると、この座標軸が特定の音域で移動したり縮小したりしてしまうことがあり、
結果として、空間内の周波数分布に歪みが生じてしまうようなのです。
（つまり、音の成分が音域ごとに分離して位置的なズレが生じてしまう）

これは特に低域で起こりやすいようで、
（その要因としては、低域の正確な定位再生が難しいのと、そもそも人の聴覚が低域の位置を知覚しにくいためだと思われます）

例えば、低域が全体的に縮小して中央に寄っているようなケースだと、
中央から離れて定位する音ほど、低域成分が抜けてしまう状態になります。

そういった音も、高域成分から定位は知覚できるのですが、
低域のズレのせいで音像が歪んだり、実在感の薄い（重心の高い）ボヤけた音になったりと、
音質にもその劣化がはっきりと現れてくるのです。

他にも、低域が全体的に後ろ（奥）に下がってしまっているケースも多いのですが、
私が見てきた限り、こういった軸のズレは音場を狭くする要因にもなっているように思います。

これらの原因はもしかすると、
イコライザー（EQ）等の使用による位相の変化などが関係しているのかもしれませんが、
もちろん私にはよくわかりません（申し訳ないです）。

もし仮に、音像の左右方向は音質、前後方向はトランジェントとの相関関係があるとするならば、
それらが特定の音域において著しく劣化して（不整合が起きて）しまうと、
このような全体的な歪みとなって現れてくるのかもしれません。

音場の広さ

前述の軸のズレによる音質等の劣化は、
特定の音域で音場（空間）が縮小したり移動したりするのが原因だと思われるのですが、

それであれば、他の音域も同じスケールに合わせてしまえば、
軸のズレの問題は起こらないと考えられます。

そして実際に、私が見た限りでは、
音場はコンパクトだけど密度感が高かったり、
前後方向（奥行き）は狭めだけど解像度が高いといったように、

特に音像を小さく維持するタイプのマスタリングにおいて、
あえて音場を縮小することで、まるでトレードオフ的に音質を上げているかのような、
そのようなケースにいくつか心当たりがあります。

そして縮小とは逆に、
これは音像を拡げるタイプのマスタリングになりますが、
音場自体が前に出たり拡大しているように感じたり、
逆に後ろに下がっているように感じるケースもあります。

見方を変えれば、
このような事象はまるで、マスタリングという工程で空間の座標を再マッピングして（移し替えて）いるようにも見えるのですが、

もっと単純な話として、
そもそも音場は全ての音像を内包しているものだと考えれば、
音像の特徴がそのまま音場にも現れるということかもしれません。

つまり、音像を小さくすれば音場は狭くなり、
音像を拡大すれば音場は広くなるといった理屈になりますが、
（もちろんそれ以外にも要因はあると思います）

逆説的に言えば、
個々の音像ではなく全体の音場に注視することで、全ての音像のベースとなるような、本質的な音質調整を行えるとも考えられます。

それは正に、「木を見て森を見ず」といった話で、
あくまで推論ではありますが、このことはマスタリングにおける、
音場全体を俯瞰で捉えることの重要性を示唆しているように思います。

なお、音場を狭くする方向性については、
何度も言いますが、ステレオフォニック再生では前後方向の音像再現が非常に難しいため、
その部分を音場ごと縮小することが、再生のし易さ（歪みにくさ）の面で有利に働く可能性があります。

それが意図的であるか結果的なものであるかは別として、
ステレオ音源に対するマスタリングとしては、合理的で賢いアプローチだなと思います。

音像（音源）の移動

先ほどの話は、音場を縮小したり拡大する話でしたが、
その中にある音像に着目すると、
単純に考えれば、中心から離れた位置にある音像ほど、
音場の大きさに伴って相対的に位置が移動する（中心に寄るか離れる）ことになります。

つまり、それが例示するように、
本来の音源の位置（定位）ではない位置であっても、
その音の成分が1箇所に集まってさえいれば、ある程度の音質は維持したまま、その位置に定位を移すことができると考えられます。

実際に、音像の位置をあえて動かしていると感じることは多くあって、
基本的には、奥に定位する音を前に動かして強調させるというように、
1つのテクニックとして用いられているように思います。

ただし、特定の音だけを動かすとなると、
普通に考えて本来の音像の形は維持できませんし、他の音との干渉も避けられません。

それ故かこのテクニックは、
音像を小さく維持するタイプのマスタリングでよく見られる（気付きやすい）傾向があって、
音像全体というよりも音源の部分を移動させるようなイメージになっています。

さらには、特定の音に限らず、
どの音も本来の定位を無視して再配置させているかのようなCDも存在していて、

このレベルになると、
もしかしたらAIなどの技術を使って、ステレオ音源から個々の音源を抜き出して処理しているのでは？と思うぐらいに、
一般的なマスタリングのセオリーからは外れた独自性のようなものを感じます。
（と言っても、世界のトップエンジニアの音はどれも唯一無二な感じですが）

いずれにせよ、手法はどうであれ、
本来の音像の定位や形に拘らず、音源（直接音）の部分だけを研ぎ澄まして純度を高めていけば、
それだけ個々の音が明瞭になるのは確かです。

これは特に、古いステレオ音源のリマスタリングと相性が良く、
もし「本来の音」が、ノイズや反射音などの余分な音の成分で埋もれていたとして、
それらを削ぎ落とすことで明らかな音質向上が得られるのであれば、
たとえ元の音像の定位や形が変わってしまったとしても、その目的は達成できていると言えます。

もちろん、反射音を削りすぎてしまえば音の拡がりや聴き心地が悪くなりますし、
定位の移動と共に前後方向（奥行き）の振る舞いが変わってしまえばトランジェントに不自然さが出たりと、
やり方次第ではそれらが悪目立ちしてしまうと思うのですが、

このようなリマスターの分野はやはり、
スキル以上に、テクノロジーがダイレクトに反映されるものだと思うので、
そのノウハウのほうが重要になりそうな気がします。

あとこれは余談ですが、
イヤホンやヘッドホンによるバイフォニック再生（非ステレオフォニック再生）は、これに似た作用があると思っています。

つまり、音像（主に反射音）の再現が不完全になることが転じて、
逆に音源（直接音）の部分が強調されて剥き出しになるような状態となり、
さらには、それを耳元という極めて近い距離で聴くことによって、
各々の音をより明瞭に聴取できるという理屈です。
（メーカー側は、加える響きの質で個性を出しやすいので、最近はラインナップも豊富なんだろうと思います）

また、イヤホンやヘッドホンでは比較的大きな音で聴きがちですが、
それは音質の違いには敏感になる反面、本能的？に「選択的聴取」が働きやすくなることで、
再生方式の不一致がもたらす音像の歪みやトランジェントの不自然さといったものには、尚更に鈍感になってしまうと考えられます。
（マスタリングの違いも大まかにしか聴き分けられません）

よく言われる、スピーカーよりもイヤホンやヘッドホンのほうが音質が良いという話は、
決して間違ってはいないのですが、それは1つの側面でしかないので、
個人的には、スピーカーによる真のステレオフォニック再生の素晴らしさを、声を大にして訴えていきたいと思っています。

マスタリングの理想とは

とりあえず以上が、私がCDの音から見取った音像の違いの大まかなパターンになりますが、
おそらくはまだ他にも見えていない事象があるでしょうし、
（たとえば倍音成分の再現性とか）
今後解釈が変わることもあるかもしれません。

それでも、音像だけでこれだけの違いがあるうえに、
さらに加えて、ある程度連動はしていても、
聴感上で分かる音質の違い（音色、質感、解像度、密度感、周波数レンジ、音域のバランス、ダイナミックレンジ、S/N感、歪みなど）があると考えていただければ、
マスタリングによる音の個性がバラエティーに富んでいることを理解して頂けるかと思います。

※ここでいう違いとは、他のエンジニアさんよりもここがこう違うといった、相対的な音の違いなので、再生環境のグレードに関わらず現れてくるものになります

ただこれは、前編の記事にも書きましたが、
マスタリングで音圧を上げざるを得ないという状況があるからこそ、半ば必然的に音質や音像（立体音響）に歪みが生じてしまうのであって、
その過程でエンジニアが何を重視し選択したかという結果が、このような音の違いとして現れているわけです。

したがって、問題の本質的には、
音圧を上げないということがマスタリングの理想的な姿と言えるのですが、

現実的には、
トラックダウンされた音源（マスター）が最高点であるとするならば、
その音質や音像を可能な限り維持したまま音圧を上げることが、1つの理想となるでしょう。

つまり、この記事の序盤で述べた、
波形はそのままで音量を上げたときと同じ音質と音像になるのが究極ということですが、

それは理論上不可能ではあるものの、
それに近いことを成し遂げているのが世界のトップエンジニア達であり、
私の知る限り、その筆頭と呼べるのがRandy Merrill氏です。

後編につづく