#005 効果音制作とサンプリングレート
こんにちは。ノイジークロークの金井です。
今日はサンプリングレートについて記事を書いてみようと思います。
サンプリングレート
サンプリングレートは様々なところで関わることが多い言葉で、最近耳にすることが多いハイレゾという言葉の定義でも、音源のサンプリングレートがどのくらいなのかという点が一つの指標として扱われていたりします。
このサンプリングレートは効果音制作だけでなく、コンポーザーや、ミキシングエンジニアの領域でも基礎的な知識なので、本当にいろいろな本や記事などで説明が行われています。
そのため、こちらの具体的な解説については、書籍が幾つも出ているのでそちらを読んでもらえるとすごい嬉しいです!(『基礎 音響・オーディオ学』であったり、『コンピュータ音楽: 歴史・テクノロジー・アート』などのデジタルオーディオに関する本や、Studio Gyokimaeさんのサンプリングレートについての記事を読むといいと思います。)
基礎 音響・オーディオ学
https://www.coronasha.co.jp/np/isbn/9784339007756/
コンピュータ音楽 歴史・テクノロジー・アート
https://www.tdupress.jp/book/b349836.html
サンプル・レートについて
https://pspunch.com/pd/article/sample_rate/
そのサンプリングレートの説明の中で一番制作に結びついてくるのは、ナイキスト周波数(サンプリング定理)です。
ナイキスト周波数
これはざっくりというと、サンプリングレートの半分の周波数までしか、正常に音が再現されないということを示しています。
つまり、44.1kHzのフォーマットでは22050Hz、48kHzでは24000Hzまでの音しか正しく録音/再生されません。その周波数を超えた音は録音できずに消え去るのではなく、折返しノイズ(Aliasing)として可聴領域へと本来存在しない音として下ってきます。(通常は標本化前にフィルター処理が行われるため、録音時には気にする必要がないのですが、DAW内でディストーションなどを使用すると発生します。)
この現象は映像の場合でも発生し、原理としても一緒なため、ヘリコプターなどのプロペラの回転をビデオで録画した際に、一定の速度を超えると回転が止まり、逆回転し始める現象が例として挙げられることがよくあります。
映像と同じく、サンプリングレートで設定した、44100Hzなどの速度を超える速さで周期する音は、全く違う周期の音と判別がつかなくなって、本来の音とは違う音として記録/再生されてしまうのです。
高いサンプリングレートのメリット/デメリット
これまでの説明の通り、高いサンプリングレートであれば、非常に高い音もデータとして正しく保存することが出来るようになります。例えばサンプリング周波数(以降SR) 48kHzでは24kHz、SR 96kHzでは48kHz、SR192kHzでは96kHzまでデジタル化することができます。
この事は人間の可聴領域と関連付けられて、そもそもそんなに高い音は聞こえないので必要ないのではないか、と言及されることがあります。人間の可聴域は、若い成人であれば大体20Hzから20kHzまでの範囲だと言われています。そのため、その可聴領域を超えた音を保存できるようにしても意味がないんじゃないかということですね。
そこに対して、デジタルで非線形処理を行う場合は、エイリアスノイズの乗り方が変わってくるという話であったり、超音波として存在していても意味があるんだという話に発展していったりします。
ただ効果音制作の場合にはそれ以外のメリットを持つことがあるので、その点についてここから説明をしていきます。
効果音制作とサンプリングレート - 再生速度変更
効果音制作では基本的に音を組み合わせながら(レイヤーしながら)制作することが多いのですが、それ以外にも再生速度を変えて音の印象を大きく変化させる手法が多く使われます。
例えば1kHzのサイン波があったとします。これの再生速度を半分にすると500Hzのサイン波になります。そしてこれを1/4の速度にすると250Hzになります。
このように速度を半分にすると、その波形データに含まれる音が半分のピッチへ、更に速度を半分にすると、音もさらに半分のピッチへと変化します。
シンプルですが、このように再生速度を変えるだけでも音から受ける印象は大きく変わります。再生速度を変えたものだけを聞いても、オリジナルが何なのかを判別することはなかなか難しいのではないでしょうか。
上の獣のような声は、元の再生速度に戻すとこのような音になります。
鶏の声でした。
再生速度変更の問題点
この魅力的な再生速度変更によるピッチ変更ですが、問題点が一つだけあります。
繰り返しますが、再生速度を半分にすると、1000Hzの音は500Hzへと、500Hzの音は250Hzへと変化します。そして人間の可聴域はおおよそ20Hz-20kHzです。つまり可聴域の上限である20kHzも再生速度を半分すると10kHzの音となります。48kHzのデータに当てはめると、再生速度半分の場合は12kHz、1/4にすると6kHzがそのデータに含まれる上限となり、その周波数以上の音は存在しないこととなります。
20kHz周辺の音は年齢が若くないと聞こえないですが、6kHzは大体の人が聞き取れる周波数です。そして、この 6kHz 以上の音がないという事実は、なんだか音がこもって聞こえるなぁという印象に結びついてしまいます。
そのため、効果音制作においてはサンプリングレートの高い素材か否かという点は、結果としての制作物に大きく影響します。
ピッチ変更時の比較(48kHz と 96kHz)
先程の鶏の声は96kHzの素材なのですが、これを48kHzへとサンプリングレートをコンバートし、1/4の再生速度にしたものをアナライザに通した場合、2000msの平均値はこのようになります。
2secでの平均値(48kHz)
周波数の上限値付近を観察すると、大凡6kHzあたりからロールオフし始め、7kHz以上はほぼノイズしか含まれていないことが確認できるかと思います。
上限値付近(48kHz)
同じ音をオリジナルの96kHzで計測した場合は下のような図となります。
2secでの平均値(96kHz)
上限値付近(96kHz)
96kHzの場合は、 おおよそ倍の 12kHz あたりまで音が存在することが確認できるかと思います。
この残った音はただのノイズなんじゃないかという問題はありますが、本来は聞こえない音が可聴域まで降りてくることがあるんだということは、理解できたのではないかと思います。
この現象は、例えば動物の声や金属音などではもっと効果がよく現れます。以下の動画では鶏と猫の声をオリジナル→ピッチダウン(48kHz)→ピッチダウン(96kHz)の順番で再生したサンプルです。
効果音素材とサンプリングレート
これまで説明したように、効果音制作では再生速度変更によるピッチ操作が多く使われるため、素材のサンプリングレートが高いかどうかということは、最終的な出音に直結する可能性がとても高いです。
そのため、最近の効果音素材集は高いサンプリングレートで収録されていることがとても多いです。またフィールドレコーディングする際にも、高いサンプリングレートで収録したほうが、加工の際の後悔が少なくなるのではないかと思います。
またそういった事情から、フィールドレコーディングをする際のマイクには、周波数特性が広いマイクが選ばれることが多い印象です。例えばSanken CO-100K (20Hz ~ 100kHz) や Sennheiser MKH8040 (30Hz ~ 50kHz) などが使われています。
また Mattia Cellotto の Rock Momentum のように、L ch はMKH416 (40Hz ~ 20kHz) 、R ch は MKH8040 とそれぞれ別のマイクで収録した素材が存在しており、ピッチを大きく変更するときは R ch をモノラルにして使ってくれという面白い提案がされているライブラリも存在します。
まとめと余談
以上で、効果音制作時の高いサンプリングレートの利点についての説明を終わりにします。まとめとしては、高いサンプリングレートの波形だと、ピッチを大きく加工しても、音の高域が残りやすくなるというメリットが挙げられます。
個人的にはこのハイの違いは大きいと感じていて、低いサンプリングレートのものをピッチ変更すると、どうしても古臭さを感じてしまったり、音の抜けが悪くなるため、可能なら高いサンプリングレートの素材で制作をすることがとても多いです。
以下、余談という名のReaperトピックです。
Reaperの場合は48kHzのプロジェクトに96kHzのデータをインポートすると、自動的に48kHzへとリサンプリングされると思います。ただ、本当に48kHzの素材に変換されているわけではなく、データの再生速度を変更した場合には、オリジナルの24kHz以上の音が下の周波数域へと降りてくる仕様となっていました。
上で貼り付けた鶏と猫の声の動画は、48kHzのプロジェクト設定で再生していたのですが、波形が96kHzの場合にはしっかり12kHzまでの音が残っていることが確認できると思います。
他のDAWももしかしたら同じなのかも知れませんが、少なくともReaperに関しては、波形が自動的にResampleされても、再生速度を変更した場合の周波数に影響しないので、サンプリングレートを気にせずじゃんじゃんプロジェクトに突っ込んで問題ないようでした。
以上で今月の記事はおわりになります。それではまた来月。
補足
一般的に使われるピッチという意味での周波数とサンプリング周波数についての補足です。
ピッチという意味での周波数
まず音のピッチを意味する周波数(440Hzなど)は、基音のピッチを指すことが多いです。あくまでもこれは基音の話であって、鳴らす音によって倍音の構成が変わります。440Hzの音であっても倍音や雑音という言葉で呼ばれる音が含まれています。そうすると同じ440Hzの音であっても、そこに含まれる高周波数は音によって様々な構成となります。
下の画像は440Hzのサイン波、つまり倍音を持たない音ですが、この波形をSaw, Squareへと切り替えていくと、同じピッチであってもそこに含まれる高周波は全く別のものとなります。
Sine
Saw
Square
この画像から、まず440Hzの音であってもそこに高周波数帯域の音はほぼ含まれているという事を、次に、音によってその高周波数帯域の音の構成は変わるということを読み取ってもらえればと思います。
サンプリング周波数
サンプリング周波数はあくまで音をデジタル化する際にのみ扱われる言葉で、1秒間にどれくらいの周期で音をデジタル化するのか、ということを表す言葉です。
例えば、サンプリング周波数48kHzの音声データでは、音声のデジタル化が1秒間に48,000回行われていることとなります。下の画像は、サンプリング周波数48kHzの440Hzの音です。
サンプリング周波数は1秒間に48,000回サンプル化するという意味するのに対し、後者の440Hzのサイン波は1秒間に440回周期するという、全く別のことを意味しているため、混同しないように注意してください。
そのことを踏まえると、この48000Hzのデータに収録された440Hzの音は、1周期辺り約109サンプル使われて、記録されているということとなります。(48000 / 440 = 109.0909...)
右下の109という数字が、上の波形で選択した1周期に含まれるサンプル数を表しています。
そして、この波形の1周期をデジタルからアナログへと問題なく変換するには、サンプル数が少なくとも2つのサンプルが必要となります。48kHzの場合は、 48000 / 2 = 24000 となり、24kHzが上限となります。これがナイキスト周波数の項目で触れた、サンプリング周波数の半分までの音しか正確にデジタル化することができないという現象に繋がります。