ピアノソロのレコーディング条件の比較による検証と考察〜1. オーディオインターフェース編〜

2023年6月10日 22:31

最近僕が仲良くしている凄腕エンジニアの人とピアノソロのレコーディング会をする機会があり、録音に関する知見が色々と得られました。

僕は作編曲、演奏、録音、ミックスまで含めて基本的に一人で行っていますが、スタジオやホールでの録音は割と苦手意識を持っています。とはいえ今年はオリジナルのアルバムを制作しようと考えている事もあり、最近は録音技術も磨いていきたいと意気込んでいます。

そんな感じのモチベーションがあるので、僕のインプット整理の意味も兼ねて、ピアノソロのレコーディングに関する知見を共有したいと思います。先日録音した音源を使いながら説明していくので、興味のある方はモニター環境を用意しておく事をオススメします。

概略

オーディオインターフェースの設定であるサンプリングレートまたはゲインを変化させた場合に、聴感上感じられた音の違いと、それを考察した主な原因を以下に示します。

音の違い

サンプリングレート

高音域の減衰
音の解像度
両手の分離感

ゲイン

環境ノイズの音量
音のアタック感
空気の量感
音の解像度

違いの原因

サンプリングレート
　倍音成分量の違い

ゲイン
　ダイナミックレンジの違い

「1. 検証方法 → 2. 録音の比較」という順番で説明していきますが、「細かい事は良いからとりあえず音の違いが聞きたい」って方は「2. 録音の比較」のセクションからご覧ください。

1. 検証方法

1.1. 録音環境

今回録音で使用した機材、スタジオ、ピアノについて紹介します。

マイク

ピアノの音を収音します。at-4050 というコンデンサーマイクを、モノラルで1本、ステレオで2本使用しています。特段癖の強いマイクという訳ではなく、どの場面で使っても比較的良い品質で録音ができるため、優等生タイプのマイクかなと思います。

今回はある一方向のみを収音する「単一指向特性」を使用しました。
またこのマイクの周波数特性を見ると、高周波成分の感度が少し高いことが分かります。実際、このマイクは打鍵時の金属的なキンキンする高めの音を拾いやすいと感じています。
この辺りは次回解説予定の「2. マイク編」で少し触れるかもしれません。

at-4050 指向・周波数特性 (引用: https://www.audio-technica.co.jp/product/AT4050)

オーディオインターフェース

マイクで拾った音を増幅し、録音先のPCに音を流し込む役割をしています。使用しているのは RME の Babyface Pro FS というオーディオインターフェースです。高品質な音をナチュラルな状態で伝達してくれる様な、非常に使いやすいオーディオインターフェースです。

スタジオ

アコースティック楽器演奏用のスタジオで録音しました。
・広さ 36㎡ (20畳)
・高さ 5.4m (天井までは2フロア分)

(マイクセッティング以外の写真を撮る事すっかり忘れてた・・・)

ホールとして考えると少し狭めですが、低域から高域までほぼフラットな残響特性(約0.5秒)で、音が飽和しにくい環境となっています。

ピアノ

YAMAHA A1L が置かれていたので、こちらでレコーディングしました。
グランドピアノとしては比較的小さめですが、色々なジャンルで使いやすいピアノかと思います。

ピアノの音は「マイク→オーディオインターフェース→PC(DAW)」の経路で録音します。

1.2. 検証項目

レコーディングの音質を決める要因は様々ありますが、今回は「オーディオインターフェース」の設定に注目して検証していきます。
具体的には以下の項目を中心に比較します。

サンプリングレート
音を記録する回数
ゲイン
音を増幅する倍率

サンプリングレートとは

サンプリングレートは1秒間に何回音を記録するかというもので、CDだと 44.1kHz、つまり1秒間に44100回音を記録する形式が一般的です。サンプリングレートは、オーディオインターフェース側で設定することが出来ます。

信号とサンプリングレートの関係
(引用: https://watlab-blog.com/2019/09/19/resampling/)

サンプリングレートが高いほど、一般に高い音域 (周波数) の音が記録できます。具体的には、最高でサンプリングレートの半分の周波数まで録音が可能です(「ナイキスト周波数」と呼ばれます)。

例えばサンプリングレートが44.1kHz ならその半分の 22,050 Hz、96.0 kHz ならその半分の 48.0kHz までの高さの音が記録されているということになります。

一般に人間の可聴領域は 20Hz~20,000Hz と言われているので、サンプリングレートが 44.1 kHz もあれば十分そうな感じがしますが、今回の検証では 44.1kHz と 96.0kHz で聴感上どのような違いが出るのかを確認していきます。

ゲインとは

ゲインはマイクで拾った音をどの位増大きくするかを決めるものです。マイクで拾った音は、オーディオインターフェースで音を大きくしてあげる必要があります。

しかしマイクで既に音は拾えているはずなのに、何故ゲインで大きくしてあげる必要があるのでしょうか。

あまり意識する機会はないと思いますが、実はマイクで拾った音というのは実は非常に小さく、それだけでは普段僕たちが耳にする音量で聴けるような大きさにはなっていません。

拾った音を「マイクプリアンプ」というものに通し、音の信号を増幅させる事で、僕達が処理出来る程度の大きさになっています。そしてオーディオインターフェースにはこのマイクプリアンプが内蔵されており、音の信号をどの位増幅させるかというのを設定できます。

この「どの位音の信号を増幅させるか」という倍率のことをゲインと言います。録音においては、ゲインの設定でマイクで拾った音の何百倍とかいう倍率に平気で上げたりします。それだけマイクで拾った音はめちゃくちゃ小さいという事ですね。

今回の検証ではゲインの違いによる比較も行いますが、ひとまずは「オーディオインターフェースがマイクで拾った音を大きくしている」という事を覚えておいてください。

1.3. 録音設定

以下の条件に揃えて録音を行います。オーディオインターフェースの場合は、項目が検証比較対象でない場合の設定となります。

マイク

ソース：モノラル (マイク1本)
指向特性：単一指向 (一方向の音を収音)
収音方向：ピアノの方向
録音位置：固定

オーディオインターフェース

サンプリングレート：96.0kHz
ゲイン：PCに録音される音がギリギリ音割れしない程度の音量(※)

このようなゲインを、今回は「適正値」とひとまず考えておいてください。このゲインの適正値は、マイクの距離や録音物によっても変わるため、適宜調整してあげる必要があります。

※ ゲインの適正値について

今回の検証では、適正値をPCに入力される録音の瞬間最大値から、大体 -7dBFS 付近の大きさで調整しています。

dBFSは「Decibels relative to full scale」の略で、デジタル信号の大小をを表す単位です(が、基本FSは省略される事が多いです)。PCの様なデジタルな信号を扱う上では、0dBFS が音の表現可能な最大値となっています。

この 0dBFS を一瞬でも超えると音の波形が潰れてしまう、いわゆる「音割れ」が発生してしまいます。こうなってしまうと、音割れする前の波形に後から調整する事が不可能で、録音が使い物にならなくなったりしてしまいます。

そのためこの検証では、僕がピアノで弾いた時におおよそ最大音量になる音が -7dBFS 付近になる様に調整しています。経験則的ですが、こうすると瞬間的に 0dBFS を超えて音割れする事はなく、少し余裕を持って録音する事が出来ます。

1.4. 検証手順

以下の手順で検証します。

収音位置の決定
マイクの設置
オーディオインターフェースの設定
類似フレーズの録音
録音した音のノーマライズ処理
聴き比べ

1. と 2. については、今回各比較項目でマイクのセッティングを変えないので、詳細は割愛します。この2つは次回投稿する予定の「2. マイク編」で掘り下げて説明します。

3. オーディオインターフェースの設定

サンプリングレートについては、手元で 44.1kHz または 96.0kHz に変更するだけです。
ゲインについては、ピアノでフォルテッシモになる音をガンガン弾き続けて、入力される値を見ながら調整します。「1.3. 録音設定」に示した適正値か、その適正値から -30dB して録音したものを今回の検証では使用します。

4. 類似フレーズの録音

検証項目の違いが分かる様、同じようなフレーズをいくつか弾いて録音し、それを比較検討しています。

・・・とは言いつつ、今回の検証では全く同じ音を弾いている訳ではないので、厳密な対照実験とは言えない所もあります。
(これは言い訳なんですが、)最初は記事を公開するつもりとかは一切なく、あくまで個人的なインプットの為に行っていたものなので、この辺若干ガバガバなのはご容赦ください。

5. 録音した音のノーマライズ処理

PCのDAWでノーマライズ処理を行います。ノーマライズは波形の振幅レベルを一定の大きさに調整することを指します。これによって大きかったり小さかったりでばらつきのある録音を一定の音量に調整し、出来るだけ同じ条件で正確に比較できるようにします。

6. 聴き比べ

ノーマライズした録音をヘッドホンで聴き比べて、それぞれの違いを感じ取りながら考察します。

2. 録音の比較

まず音を聞くときの環境ですが「ある程度性能の良いヘッドホン・スピーカー・イヤホン」での試聴をお勧めします。恐らく普段お使いのスマホやタブレットのスピーカーだとそれぞれの録音の差が非常に分かりにくいと思いますので、あらかじめご了承ください。

~~あと記事にして一般公開する事とか微塵も考えてなかったからクソ雑な弾き方なのとフレーズに一貫性が無いのは許して・・・（予防線）~~

2.1. サンプリングレート

44.1 kHz

96.0kHz

所感

高音域の減衰
44.1kHz 早い / 96.0kHz 遅い
例：最高音のドの音を打鍵した時の弦鳴り (44.1kHz 0:22 ~ 0:25 と 96.0kHz 0:22 ~ 0:24)
音の解像度
44.1kHz 低い / 96.0kHz 高い
例：単音でスケール的なフレーズを弾いた時の音の存在感 (44.1kHz 0:30 ~ 0:35 と 96.0kHz 0:28 ~ 0:37)
両手の分離感
44.1kHz 小さい / 96.0kHz 大きい
例：右手と左手のフレーズの独立感 (44.1kHz 0:35 ~ 0:42 と 96.0kHz 0:37 ~ 0:44)

考察

上記の違いは、高周波成分に含まれる倍音の差によって生まれたのだと考えられます。

倍音とは、音の根本となる周波数の整数倍に位置する周波数成分を指します。音の根本となる周波数の事を基音(基本周波数)と言い、基音は音の高さを決定する要素です。

ド(C4)の音を弾いた時の周波数スペクトル
(引用: http://rzf.blog61.fc2.com/blog-entry-54.html?sp)

僕たちは音の高さを基音から知覚し、音の明るさや響きの豊かさなどの音色的な特徴を倍音から感じ取ります。ピアノの様な音程がはっきりしている楽器の音にはこの高次倍音が多く含まれており、倍音成分が多いほど音の複雑さや和声感、豊かさが大きくなる傾向にあります。

自然倍音列から見る基音と倍音の関係
(引用: https://xn--i6q789c.com/gakuten/baion.html)

1.2. 検証項目の「サンプリングレートとは」の所でも触れましたが、サンプリングレートが高いほどより高い周波数の音を収音する事ができます。そのため、原理的には高い周波数領域にある倍音成分を多く含むことになりそうです。

高音域の減衰度合については、収音できる高周波成分に差が出たという事でシンプルに説明できそうです。ピアノの弦やドラムのシンバルの様な金属系の音は、非常に高い周波数成分の音を比較的多く含んでいます。弦鳴り特有の高周波の倍音がカット・パスされた事で、聴感上の差が生まれたのかと思います。

音の解像度については、倍音の有無が差の大きな要因になっていそうです。倍音が増えて音の響きがより豊かになった事で、１音１音の存在感が増した様に感じられました。この響きの豊かさと音の存在感が、音の解像度の高さに寄与しているのかなと思います。

両手の分離感についても、倍音の存在が大きく寄与しているのかと思います。録音を聞く限り、低音よりも高音に近い音、つまり右手のフレーズ方がより音の存在感を強く感じられました。倍音が増えた事によって中高音域に輪郭が出る様になり、低音側の左手と高音側の右手のフレーズの差がより明確に感じる様になったのかなと考えられます。

2.2. ゲイン

適正値

適正値-30dB

所感

環境ノイズの音量
適正値小さい / 適正値 -30dB 大きい
例：適正値 -30dB の録音全体を通して「サーッ」という音で鳴っているノイズ (無音区間が顕著)
音のアタック感
適正値強い / 適正値-30dB 弱い
例：最高音のドの音を打鍵した時のパーカッシブなアタック部分の強さ (適正値 0:17 ~ 0:25 と適正値 -30dB 0:18 ~ 0:29)
空気の量感
適正値少ない / 適正値-30dB 多い
例：録音全体における適正値 -30dB のウェットな空気感と適正値のドライな空気感
音の解像度
適正値高い / 適正値-30dB 低い
例：先頭のCコードの和声感ある倍音の厚さ

考察

上記の違いは、録音した目的音のダイナミックレンジの差によって生まれたのだと考えられます。

ダイナミックレンジとは、最も強い音と最も弱い音との範囲を表すものだと思ってください。例えばクラシック音楽の強弱記号で、ピアニッシシモ (ppp) を最小音、フォルテッシシモ (fff) を最大音として表現する事がありますが、ダイナミックレンジはこの ppp と fff までの幅の事を指します。

適正値-30dB の方は明らかに「サーッ」というノイズが多く聞こえますが、これはノーマライズによるPC側のボリューム調整で、ノイズも一緒に持ち上げてしまっていることが原因と言えます。

オーディオインターフェースのゲイン、PCのボリュームどちらも聞いた時の音量感をコントロール出来ますが、やってる事が全然違います。前者は入力信号を増幅するので、音質そのものが変化します。後者は信号の拡大率を変えるだけなので、音質は変わりません。

画像で例えると、ゲインがカメラの画角で、ボリュームがスマホの画像の拡大・縮小機能と言ったところでしょうか。人の全身写真を撮るときに、めちゃくちゃ遠くから撮って後から拡大してサイズを合わせるより、最初からカメラの枠いっぱいに収めるように写真を撮れば、後から拡大するより写真の画質は良い筈ですよね。

ゲインが適正値より小さいということは、目的の音が十分な大きさで入力されていないという事です。相対的に見れば、ノイズと目的音の大きさに音量差があまり生じておらず、ノイズのダイナミックレンジが広くなったと捉える事が出来ます。それをそのままボリュームだけ持ち上げたら、ノイズが大きくなってしまうのは想像に難く無いでしょう。

逆に言えばオーディオインターフェースのゲインで適正な入力レベルにしておけば、良い音質が担保しやすいということになります。それがこの比較で強く実感できました。

ちなみに 30dB の差がどれほどの違いかというと、電圧・音圧では約 32 倍、電力・音響パワーでは 1000倍もの差があります。それだけゲインの設定次第で大きく音が変わってしまうということです。とはいえ人間の耳は音を線形ではなく対数的な尺度で知覚しているため、数値上はこれだけ差があっても劇的には差を感じにくくなっています (というか人間の感覚に合うように dB という対数尺度の単位が導入されているというべきか)。

音のアタック感については、ゲインが最適化されていないと、アタックのダイナミックレンジも相対的に小さくなってしまうからだと考えられます。

音のアタック感は演奏音の立ち上がりの勢いで決まります。具体的には、演奏されてからサウンドが最大音量に達する時間と、立ち上がりの音そのものの大きさで決まります。つまり、アタックは小さい所と大きい所の差によって知覚される要素であるため、ダイナミックレンジの影響をモロに受けそうだなという事が想像できます。

適正値-30dB の方では録音された音が小さいため、目的音のダイナミックレンジが狭くなっている筈です。その結果アタックの最大音量との差が小さくなってしまい、アタック感が薄れてしまったのではないかと考えられます。

空気の量感については、適正値-30dB では環境音自体が大きく持ち上がってしまっているので、空気感が増えてしまうのはある意味当然と言えそうです。程よい部屋鳴りの空気感がある分には音響効果として嬉しい部分はありますが、今回の場合はノイズ成分が多いためあまりそうとは言えません。

音の解像度については、適正値-30dB では十分な大きさで録音されなかったため、全体的に周波数成分の情報が抜け落ちてしまったのかと考えられます。先程のカメラの画角と拡大・縮小機能の話と同様に、低い解像度のものをそのまま引き伸ばしても解像度は上がらないということが、ここでも言えそうです。

まとめ

ピアノソロのレコーディングにおいて、オーディオインターフェースのサンプリングレートまたはゲインを変化させる事で、録音の質に聴感上の変化が起きる事がこの検証で実感出来ました。この音質の差は、主に倍音成分やダイナミックレンジの違いによって発生しているのではないかと考えられます。

今回はオーディオインターフェースの設定の違いに注目した検証記事を書きましたが、次回はマイクの設定による音の違いを検証・考察した記事を投稿します。