CDのマスタリングを見解く（前編）

2024年10月22日 00:32

はじめに

ここで考察していることは、J-POPを始めとした音圧を上げる必要のあるマスタリングについてです。

また、「正確なステレオフォニック再生」で聴くことを前提としているため、
検証のハードルは高いと思います。

正確なステレオフォニック再生とは何か？については、次の記事で考察する予定ですので、
興味があればそちらもご覧ください。

なお、ここで述べることは私の「耳」とネット上の記事から得た知見でしかなく、
間違った内容もあるかと思いますので、
参考程度に読んでいただければ幸いです。

マスタリングって何？

マスタリングとは音楽制作の工程の1つですが、
その前の工程も含め、簡単に説明すると以下のようになります。

レコーディング

1本以上のマイクを使って音楽の素材となる音を録音する
ミキシング

複数の音の素材を混合して音楽を作り、1つの音源にまとめる（トラックダウンとも言う）
マスタリング（プリマスタリング）

出力メディアに応じた音の最終調整を行う

それでは、
これらの工程を「立体音響」という視点から見直してみます。

モノラル録音とステレオ録音

レコーディングではマイクを使用して音を録音していますが、
現在のマルチトラック録音では、楽器ごとに1本以上のマイクを使って個別に収録するのが一般的です。

それに対して、複数の楽器を同時に収録する、「ステレオ録音」という方式があります。

ステレオ録音は基本的には、2本のマイクを使って収録するもので、
古いステレオ音源などはこの方式ではないかと思います。
（現在のオーケストラなどでは2本＋何本かのマイクで収録して、後でミックスしたりするらしいです）

1本のマイクを使用するモノラル録音では、
音源との距離感（奥行き）しか再現できないのですが、

ステレオ録音では、人の両耳と同じように2本のマイクで音源を捉えることにより、
2点の音量差や時間差などをそのまま収録できるため、
奥行きに加えて左右方向の音の定位や広がりを再現できるようになります。
（ただしステレオ録音の方式にもよります）

※その音量差や時間差を正しく聴取するためには、2本のスピーカーと等間隔の位置、つまり二等辺三角形の配置で聴くべきというのがステレオ再生の基本的な考え方です

・・・という説明ではよく分からないかと思いますので、
少し見方を変えて、

その場の空気の振動を空間上の2点で収録・再現する方式、と考えてみるのはどうでしょう。

つまり、音とは空気の振動として空間内に立体的に生じている現象ですので、
その立体的な空気の振動を空間ごと収録しようとする試みの1つということです。

ですが、そのような見方をすればこそ、
空間上の2点だけではおそらく不十分で、元の空気の振動を完全に再現はできないだろうということが、直感的に分かるのではないでしょうか。

少し想像を膨らませてみますと、
マイク1本で奥行き、2本で左右方向も再現できるなら、
おそらく3本あれば空間の上下方向（3点で作られる平面＋奥行き）も再現できるでしょうし、

リスニングポイントをマイク4本で取り囲むように三角錐の形で配置すれば、
再生の難易度は別として、上下左右前後360度の音の空間を再現できそうな気がします。
（マイクとスピーカーの指向性を考えると、もっと本数を増やして球面上に配置すべきですね）

Audio-TechnicaさんのAlways Listeningというサイトの記事によると、

その後、マイクとスピーカーの数をどんどん増やす実験も行われ、最大で80本ものマイクとスピーカーを使った実験もなされますが、最後に残ったのは一般的な2チャンネルとその中央にもう1本のスピーカーを加えた格好の3チャンネルでした。最終的には2チャンネルに集約していくのですが、ステレオ初期のマスター原盤には3チャンネル収録されたものが結構残っています。

レコードの歴史 #4 〜モノラルからステレオへ〜

やはりステレオ録音の黎明期にも同じような試行錯誤があったみたいですが、
マイク/スピーカーの数が多くなればなるほど、当時の技術では理想的な再生が困難だったはずなので、
（全ての音を正確な位置で再生および整合させる必要があるため）
最終的に2chに集約されたのは賢明というか、必然だったのでしょう。

その点、現在ではデジタル技術の進歩により、
スピーカーの数がいくら増えても、マイクで音響測定した結果をもとに、個別にキャリブレーション（補正）することが可能になっています。

映画のサラウンドと言えば、昔は5.1chぐらいしか選択肢がなかった気がしますが、
最近はスピーカーの本数も増えていて、
最新のイマーシブオーディオのDolby Atmosでは最大24.1.10chの再生（！）に対応とのことですので、

やはり立体的な音の空間再現のためには、スピーカーの本数は多い方が良いのでしょう。
（リスニングエリアを広げるためにも）

ただ例外として、
バイノーラル録音/再生は人の耳の位置の空気の振動のみを収録/再現する方式なので、
マイク/スピーカーは2本だけで十分といえます。

※実際には、耳の位置の空気の振動は頭の形などによって変わってくるので、その補正が必要になります（いわゆる頭部伝達関数）

※また、体で感じるような重低音など、耳の位置以外の振動は再現しようがないので、いつかサブウーファー的な立ち位置の全く新しいウェアラブルデバイスが発明されるかもしれません

さて、少し話が脱線してしまっていますが、
個人的には、この「ステレオ録音は音響として不完全である」という仕様こそが、オーディオの本質だと思っています。

音響として不完全なステレオ

一口にステレオ録音と言っても、Wikipediaに書いてあるだけでも、様々なマイクセッティング方法があるようです。

また、ステレオ再生と言っても、正三角形（または二等辺三角形）の配置が基本とされているだけで、
厳密なスピーカーセッティングの定義や、理想的な設置環境（部屋の形や音響特性）を示すような標準規格なども存在しません。
（例えばスピーカーは平行に置いたほうが良いという人もいれば、少し内向きに振るべきだと言う人もいます）

このようにステレオの録音/再生方式が画一化されていないこと自体が、
音響としての不完全さを表していると言えるのですが、

その不完全さゆえに、
足りない部分はオーディオ（再生機器）側で補い、理想の音響を完成させようという、
オーディオの趣味の世界が成り立っているとも考えられます。

オーディオには「原音再生」という言葉に2通りの解釈がありますが、
そもそもステレオで制作される限り、音響として不完全だという前提があるとすれば、
「ソースを忠実に再生する」ことも、「本来の音響の再現を目指す」ことも、どちらも正しいと言えるのではないでしょうか。
（もしステレオが音響の再生方式として完璧であるなら、この2つを同義にできるはずです）

これはオーディオのジレンマであり、また面白さでもあるわけですが、
「ステレオ」がこの世に登場して以降、技術の進歩により音質が向上した現在においても、
この不完全さの原則は一切変わっていません。

現にホームオーディオにおいては、
「良い音」は人の好みだという考え方が一般的なこともあり、
セッティングを始めとした使いこなしの大部分は、ユーザーの自主性に委ねられています。

その中で「ステレオ」をどう解釈するかも自由なのですが、
個人的には、その知見や理解度によって出音（音響としての完成度）に大きな差が出るんじゃないかと思っています。

※つまり、音源ごとに最適解が違っている可能性もあるということです

マルチトラック録音と現代のミキシング

さて、ステレオ録音は立体的な音をそのまま収録する方式でしたが、
現在の音楽制作では、楽器ごとに1本以上のマイクで収録をして、あとで1つの音源にまとめる、マルチトラック録音が一般的です。

例えば、モノラル録音した音源（素材）があるとして、
これをミキシングという工程を経て、ステレオの音源を作るということは、

音源の目線で言えば、モノラル音源をステレオ音源に加工（変換）するということです。

では実際に何をすればいいのかと言うと、
前述のモノラル録音とステレオ録音の図を比較すれば、おおよそのことが分かります。

すなわち、
音源（＝直接音）を左右に分配し、距離による音の変化を加えることと、
音源の反射音（反響音や残響音など）を適切に加えることにより、
位置を伴ったステレオ音源に変換できると考えられます。

上記はステレオの例ですが、
おそらく5.1chでもバイノーラルでも、基本的に必要な作業は同じになるでしょう。
（私には音楽制作の経験がないので、ほとんど想像ですが）

つまり、立体音響という視点で見れば、
ミキシングの役割の1つは、音の素材を加工して立体的な音に再構築する作業であると解釈できます。

ミキシングの経験のある方にとっては、
パンを振ったりリバーブをかけるといった工程は基本的すぎて、
立体音響を扱っている意識はあまりないかもしれませんが、

人の聴感で良い音を追求すれば自ずと、それは自然にある音の形（立体的な音響）に近付くと考えれば、
その本質も理解できるんじゃないかと思います。

では次に、音楽制作におけるミキシングの本来の役割である、複数の音をミックス（混合）する作業についてですが、

ミックスする全ての音が立体的なものであるという前提で考えれば、
必然的に、それぞれの音を空間上のどこに配置するかというデザインが要求されます。

これが音響的にはとても重要で、
何故なら、人が音を聴き分ける際に「音源の位置」を手がかりの1つにしていることから、
（Wikipediaのカクテルパーティー効果を参照）
このデザインによって、ステレオで再生した際の音の分離感が決定されるためです。

では、生の演奏やステレオ録音はどうかというと、
そもそも楽器（音源）の位置が空間上で重なることは物理的にありえないので、
音響的にはそれが自然なのです。
（裏を返せば、物理的制約があるとも言えます）

したがって、ミキシングでは通常、
それぞれの音が重ならないように3次元的に配置することになりますが、

音を重ねると、周波数によるマスキング効果も発生するため、
ミキシングによる自由な音の配置には、音質上のメリットもあると言えるでしょう。

※逆に、あえて音源の位置を重ねるという音響表現も可能です

音像表現の進化とステレオフォニックの課題

ミキシングで音の位置を自由に動かせるということは、
そこに表現の場が生まれるということでもあります。

音楽は複合芸術ですが、
ミキシングが作り出す音像表現も、現代では魅力的なアートと言えるでしょう。

その礎には、エンジニアのアイデアと試行錯誤、デジタル信号処理を始めとしたミキシング技術の進歩などがあるかと思いますが、
現在では、昔ながらのステレオ録音では描画しえなかった音像の再現が可能となっています。

それは例えば、スピーカーよりも手前に定位する音像だったりするのですが、
素人の私には詳細は分かりかねるものの、
音量差や時間差などの他、位相を使ったテクニック等もあるようです。

そしてこれが意味するのは、
もはや過去のステレオ録音とは根本的な考え方が違っているということで、

現代のミキシング技術によって作られるステレオ音源は、
2本のスピーカー（2点で生じる空気の振動）のみで作る音響としての限界までの挑戦とも呼べるものになっています。

（最近の曲は音数も多いので、必然的に空間を最大限利用したミックスになっていることが多いです）

これは、いにしえのステレオが室内の空気（空間）の全てで音響を再現しようとしていたのに対し、
リスニングポイント（エリア）を絞って精度の高い音響を作り上げるといった方向へ、
ステレオそのものが変化していったと考えられます。

しかしこれはまた、正確なステレオ再生が要求されるということも意味しており、

現代のステレオ音源のポテンシャルを最大限に引き出すためには、
プロの制作現場と同等な再生環境が必要になります。
（おそらくプロの現場には何かしらの基準があるのでしょうが、その辺りの事情はよく分かりません）

一方のホームオーディオにおいては、
ステレオの「不完全な音響」に起因する、従来の（趣味の）オーディオの論理がこれにうまく対応できていないのと、
（リスニングオーディオの考え方や、スピーカーは楽器であるという捉え方、モノフォニック的な音質評価など）

最大の課題である、一般住宅のルームアコースティック（室内の音響特性）の複雑さによって、
ステレオの真の姿が覆い隠されてしまっているように思います。

個人的には、オーディオ機器の特性として「ステレオ再生」に適しているかどうかは確かにあるとしても、

「ステレオ再生」という方式自体は音質とは切り離して語られるべきで、
そこに個人の主観（音質のような好み）は存在しないものだと考えています。

※つまり、音源によらず正解があるということです

※なお、私が「ステレオフォニック」という名称を使うのは、従来のステレオ録音との違いを明確にしたいからです

イマーシブオーディオとその意義

近年、Dolby Atmosなどのイマーシブオーディオが話題になっており、
それで立体音響を知った方も多いでしょう。

私も詳しくはないので大雑把な説明しかできませんが、
基本的にイマーシブオーディオは、3DゲームやVRなどの音響版と考えていいと思います。

つまり、映像における3Dコンテンツはデジタルな仮想空間上にオブジェクト（物や光源）を配置して、
任意のカメラ視点での見え方をシミュレートする技術ですが、

イマーシブオーディオは仮想空間上に音源を配置して、その波動を3次元的にシミュレートする（みたいな）技術ということです。

これは従来のミキシングに比べて、
音像のイメージを視覚化しつつ、よりプログラマブルな処理をも可能にするという、
正に画期的な技術ではありますが、

音の素材を立体的に再構築して、それを空間上に配置するという概念は、
従来のミキシングから何も変わっていません。

「イマーシブオーディオ」や「立体音響」と聞くと何か全く新しい音響かのように思ってしまいますが、
技術的には、ミキシングの方法がより洗練されて現実の音響に即したものになった結果、
「没入感」が生まれたと考えていいでしょう。

さらに、イマーシブオーディオにはもう1つ画期的な仕組みがあります。

ゲームなどの3Dコンテンツでは、カメラの視点だけでなく、両目の視点で映像を出力することでVRにも対応できますが、

イマーシブオーディオの場合も、仮想空間上にステレオマイクを設置すればステレオ録音に、
バイノーラルマイクを設置すればバイノーラル録音に、
5＋1本のマイクを設置すれば5.1chのサラウンドに…といった感じで、

1つのミックスで複数の再生方式に対応することができるのです。

（実際には、例えばステレオならリスニングポイントに届く音の波形を2本のスピーカーで逆算的に再現するような演算がされているんだろうと思います）

特に、デジタル配信とイヤホンヘッドホン聴取が一般的になった現代において、
バイノーラル音源を容易にリリースできることは、作り手と受け手のどちらにも大きな恩恵があり、
実際に「没入感」の普及にも大きく貢献しています。

また、全く別の見方として、
これまでミキシングとトラックダウンが同義だったものが、別の工程として明確に分けられた、といった捉え方もできます。

これは、トラックダウンの前にプリマスタリングを差し込める可能性があることを考えると、大きな意味を持ってくるので、
また後述したいと思います。

イマーシブオーディオもまだまだ進化中で課題も多いと思うのですが、
現在は、Apple Musicを始め、ユーザーのほとんどはイヤホンやヘッドホンを使用しての聴取です。

その背景には、立体音響の再生方式としてバイノーラルが一番手軽であり、かつ正確に再生し易いといった要因があるかと思いますが、

スピーカー再生の難しさは結局のところ、一般住宅のルームアコースティックにあると言っていいでしょう。（私の経験的にもそうです）

では、それをどう解決するか、

ここからは私の妄想と期待なのですが、
360度の全方位に設置する形のマルチスピーカーは、
ルームアコースティックを補正するシステムとしても活用できるのではないかと思っています。

イヤホンやヘッドホンではノイズキャンセリングの搭載が一般的になってきましたが、
その仕組みは、外部の音を集音してそれを相殺する信号を再生するというものです。

それと同じように、
室内の音響特性から音源の反射音を推定して、それを相殺する信号を再生することができれば、
（低音は難しいかもしれませんが）
ルームアコースティックによる環境差の問題をよりスマートに解決できるのではないかと思うのです。
（それは前方2本のスピーカーだけではおそらく不可能なことです）

もしかしたら、そんな事をせずとも、
GenelecのGLMなどのマルチスピーカーのキャリブレーションだけで十分な補正効果があるのかもしれませんが…

いずれにせよ、
イマーシブオーディオとマルチスピーカー再生は、今はまだ導入のハードルが高いですが、
それに見合うだけの音響としての完成度と可能性があるんじゃないかと思います。

ミキシングとマスタリングの根本的な違い

少し話が膨らんでしまったので、ここで一旦整理します。

ミキシングという工程は、どんな機材や最新のソフトウェアを使うにせよ、
音の素材を立体的に再構築して、それを空間上に配置する作業になります。

したがって、ミキシングで扱う全ての音には、
音質、音量のほかに位置情報があり、
それらは個別に調整することが可能です。

そして、トラックダウンされて作られる2ch以上の音源は、
適切な再生方式を用いて、その全てのチャンネルの再生音が正しく整合することで、本来の立体的な音が再現されるという仕組みになっています。

（本来の音を復元するという意味では、トラックダウンが立体音響のエンコード、適切な再生をデコードと捉えてもいいかもしれません）

したがって、トラックダウンされた音には全ての音の情報（音質、音量、位置など）が結合されて詰め込まれているということになります。

そして、ようやく核心に辿り着きましたが、

マスタリング（プリマスタリング）はこれに手を加えるという工程なので、
その作業は全ての音の情報に影響する可能性があると考えられます。

これは、音を扱う上でのミキシングとマスタリングの決定的な違いであり、
メリットとデメリットを併せ持っています。

例えば、ミックスのバランスを維持したままで音圧を上げることを考えれば、
マスタリングで全ての音を一括で処理できることは理にかなっているでしょう。

しかし、立体音響の視点でいえば、
音の位置情報には一切の手を加えたくなくても、原理上それは避けられません。

はっきり言ってしまえば、
マスタリングという工程は、立体音響的には害悪でしかないのです。
（ミキシングで立体音響は完成しているため）

※これはチャンネルごとに処理される非可逆圧縮のオーディオコーデックにも言えることで、音質だけでなく立体音響の面でも劣化が起こります

とはいえ、現実的に考えて、
出力メディアに応じた曲ごとの音の調整は必要な作業ですし、
マスタリングエンジニアの俯瞰的な役割というのも、良い作品を届けるためには欠かせません。

結果として、マスタリングという工程を経た音には、
エンジニアの個性や技術力が色濃く反映されることになるのですが、

その違いは、音を「見る」ことで感じ取ることができます。

後編につづく