真のラウドネス値 追い求めて - 海苔とK-weightingと私 -
近年では、多くのプラットフォームで「ラウドネス規準」や「ラウドネスノーマライゼーション」の運用が行われるようになり、オーディオ制作時に意識する必要のあるものとしての認識が広がっています。
一方で、ラウドネス関連に対する取り組みや考え方に関してはオーディオ制作者の中でもバラつきが大きく、不要な摩擦の要因となっている面すらあります……。
本稿はそんなラウドネス関連に対して「真のラウドネス値とは何か?」というテーマを元に掘り下げることで、より本質的なラウドネス値との向き合い方を考えるきっかけになればと思い書くことにしました。
ちょっと深めの話ではあるので、「ラウドネス規準やラウドネスノーマライゼーションの意義」「ラウドネス値(LUFS, LKFS)の大体の計算方法」などは概ね既知のものとして進めていきます。参考になりそうなリンクは最後にまとめてありますので、気になる方はそのあたりから参照してみてください。
「音量感を揃える」という概念の難しさを思う存分感じていただければ嬉しい(?)です!
1. ラウドネスの理想と現実
「ラウドネス規準」や「ラウドネスノーマライゼーション」の目的は下記になっていると思います。
ユーザーが感じるコンテンツ間の音量差を減らし、手動で音量調整を行わなくても済むようにしたい
「音圧競争」を抑制して、コンテンツの品質や多様さを守りたい
この目的そのものについて強く反対する人は少ないと信じたいところですが、下記のように考える人もいると思います。
そんなもの無視したほうがかっこいい!
そういう事を考えるのは他の人に任せたい
難しいことは良くわからない
絶対海苔最高!
こういった考えに該当する方はこれ以降を読む必要は無いと思います!
(勘違いされたくないところなので補足しますが、個人的には音の世界にはアウトロー的な価値感も重要だと思っているので否定的な感情は無いんです)
……気を取り直して、先程の目的が「理想」だとすると「現実」はどうでしょうか?
各コンテンツの音量が小さく抑えられてしまうことが多い
大きい音で聴きたい場合に機器の性能が余分に必要
出力の量子化ビット数や DA の性能によっては音質に影響が出る
(もちろん逆に大きくし過ぎるせいで影響が出ることも多いのですが……)
制作意図と異なるラウドネスノーマライゼーションの掛かり方をする場合がある
プラットフォームによっては、上げ方向のラウドネスノーマライゼーションでリミッターが使用される場合がある(らしい)
アルバム単位でのラウドネスノーマライゼーションに対応していないプラットフォームでは、各曲間のバランスが制作意図と異なってしまう場合がある
求められるダイナミックレンジが視聴環境やコンテンツの種類に依存し、それも影響してプラットフォームによって基準となるラウドネス値が異なる
周囲にノイズが多い環境ではダイナミックレンジの大きいコンテンツは聴きづらい場合がある (小さな音が聞こえなくなってしまう)
TV、映画、据え置きゲーム機等は -24LUFS 周辺の場合が多い、音楽配信、Web動画配信などは -14LUFS 周辺の場合が多い
スマートフォンや PC などの様々なプラットフォームのコンテンツが視聴できる環境では結局ユーザー側での音量調整が必要
(「ダイナミックレンジの調整」への取り組みも一部でみられるが、こちらにも様々な課題がある。ラウドネスノーマライゼーションより更に大変)
ラウドネス値と実際に感じる音量感にズレがある
ダイナミックレンジを確保したほうが瞬間音量感的には有利になるのは果たしてフェアなのか?
ラウドネス値を変えずに音量感を上げるラウドネスハックが存在する
→ 音圧競争は終わらない
「現実」の運用にはまだまだ様々な課題があることが分かると思います……。つらたん
しかし、たくさんの課題があるとはいえ徐々に「理想」を目指していくのはきっと良いことで、取り組みによって良くなっていく面は確かにあります。
そのため、個人的には下記のような関わり方が良いのかな?と考えています。
基本的には表現したい内容を優先する
「ラウドネス規準」「ラウドネスノーマライゼーション」の意義はある程度理解して最低限の追従は行い、共感できる部分は取り入れる
「ラウドネス規準」「ラウドネスノーマライゼーション」は今後も変化していく可能性の高いものであることを踏まえて、細かい数値などは過剰に気にし過ぎない
近年の状況へのお気持ち表明はこの辺にして、次項では本当の意味での「音量感」に向き合うために、「真のラウドネス値」を追い求めていきます。
2. ピークとラウドネス
ラウドネス値の計算は大きく分けて 2 つの要素に分かれます。
RMS (区間やゲーティングなどの工夫を含む)
K-weighting (等ラウドネス曲線を元にした EQ)
この要素ごとに、「真のラウドネス値」への道を考えていきます!
2-1. RMS その 1 - RMS を取る区間 -
まず、周波数特性による影響などを一旦脇に置いて、RMS のみで音量感が表せると仮定します。それでもまだ「RMS を取る区間」という要素が存在します。まずはそこについて深めていきます。
楽曲などのコンテンツデータに関して、下記を考えます。
Peak : Peak (1 sample の RMS の最大値)
Max 30ms RMS : 30ms 程度毎の RMS の最大値
Max 300ms RMS : 300ms 程度毎の RMS の最大値
Max 3s RMS : 3s 程度毎の RMS の最大値
Max 30s RMS : 30s 程度毎の RMS の最大値
Total RMS : 全区間の RMS
この中で、どれが「音量感」に近いでしょうか?
……いきなり言われてもかなり難しい問いだと思います。そこで、1 つ例をあげてみます。
曲 A : 1 曲通して同じくらいの RMS
曲 B : 「Total RMS」は A と同じだが、メロ区間の RMS は A より小さく、サビ区間の RMS は A より大きい (「Max 30s RMS」 などは A より大きい)
この場合、どちらが「音量が大きい曲」だと言えるでしょうか……?
……言われてすぐ分かる方も多いと思いますが、これは当然「どちらとも言えない」ですね!そしてこの時点で「真のラウドネス値」などという概念は存在しないことが分かってしまいます。本稿おしまい!
…………
というのは流石にヒドいので、「規準やノーマライゼーションによって音量感を揃える」という運用の観点も踏まえて見ていきます。運用として音量感を揃える場合の考え方としては、大体下記のようになるのではないかと思います。
瞬間的に大音量になる値を揃える
→ 大きすぎる音を聴くことを防げるので聴き手にとって重要だが、全体的な音量感でいえばダイナミックレンジの無い曲が有利平均的な RMS を揃える
→ 大体合わせるという感覚。一瞬でも大きい音を聴かせたいという観点ではダイナミックレンジのある曲が有利になる無音でないうち最も小音量になる値を揃える
→ 静かすぎて聴こえないことを防ぐ。(ダイナミックレンジをいじらない限り)他と矛盾するので優先度は低い
これをまとめると「瞬間的に大音量になる値を揃える」と「平均的な RMS を揃える」の間を取るような操作をすることで、大音量になる箇所を大体揃えつつダイナミックレンジのある曲をある程度優遇してコンテンツの多様性に配慮する割とマシな運用が出来そうです。
またここで、「瞬間的に大音量になる値」は、人間の音の聴こえ方を考慮すると「Peak」ではなく VU メーターや Momentary Loudness 値とも近い、「Max 300ms RMS」あたりがよく該当すると思います。
Integrated Loudness はゲート処理によって Momentary Loudness の Max と全体の平均値の間を取るような形に多少はなっていますので、(どうしてもある種の不平等は残ってしまうとはいえ) 運用上ある程度妥当な計算と言えそうというわけです。
2-2. RMS その 2 - ダイナミックレンジの分解 -
ここで、「RMS を取る区間」に話を戻しつつ「ダイナミックレンジ」とは何なのか確認してみます。
今回の文脈で「ダイナミックレンジ」と言う場合、大枠では「Peak と RMS の差」的な意味と思って良いと思うのですが、ではその「RMS を取る区間」は?という部分が深めるポイントです。
(ダイナミックレンジの定義は「信号の最大と最小の差」とされる場合も多いと思うのですが、「最小の信号」を定義するのが難しいのとどっちで取っても本質的にはそこまで差がないので、「最大と平均の差」で良いような気がしてます)
先程提示した Peak と各種 RMS の間の関係を考察することで、「ダイナミックレンジ」を分解していきます。
「Total RMS」と「Max 30s RMS」の差
→ 全体構成でみた盛り上がり区間と静かな区間の差「Max 30s RMS」と「Max 3s RMS」の差
→ フレーズ内の抑揚による差「Max 3s RMS」と「Max 300ms RMS」の差
→ ADSR 的な意味でのアタックとリリースの差「Max 300ms RMS」と「Max 30ms RMS」の差
→ アタックの鋭さ、低周波数音に対しては波形形状の効率 (いわゆるクレストファクター)「Max 30ms RMS」と「Peak」の差
→ インパルス的なノイズによる Peak の振れ、高周波数音に対しては波形形状の効率
「RMS を取る区間」毎に強めに影響しそうな「強弱」が何か雰囲気で記載してみました。「ダイナミックレンジ」にはいろいろな種類があるのが分かって貰えるでしょうか?
こうして分解していくと「ダイナミックレンジ」の種類別に評価を変えていくことで、よりよいラウドネス運用の提案が可能なように思えます。また、下記のような可能性が見えてきます。
「どの」ダイナミックレンジを残して「どの」ダイナミックレンジをどれだけ潰すのか?といった表現的な狙いが可能になる
(コンプレッサーやサチュレーターの設計の知見に繋がる。嬉しい!)
……と、まだまだ考察できそうな話題なのですが、キリが無いのでこの辺で止めておきます。
2-3. K-weighting その 1 - 等ラウドネス曲線 -
ラウドネス値は K-weighting と呼ばれる EQ を掛けてから RMS の計算を行います。
K-weighting は「等ラウドネス曲線」を元にしていますが、実際の「音量感」と比較すると以下のような差があるといえます。
等ラウドネス曲線は絶対音量によって変化するが、K-weighting は変化しない
→ デジタルのオーディオデータには絶対音量の概念が無いのでどうしようもないK-weighting は等ラウドネス曲線の逆算と少し異なる、超高域部分が下がっていない
→ 由来は調べきれなかった (超高域に音を逃がすラウドネスハックとかあったら嫌過ぎるのでこれはこれで良さそう)等ラウドネス曲線の時点で、本来個人差があるものをなんとか落とし込んだものである
→ もう仕方ない
こう見ると、改めて「真のラウドネス値」などという概念は存在しないということが分かってしまいますね……。
ただ、ここで挙げた差はどれもどうしようもないので、逆に言えば運用のための規準を作る意味では割り切れそうですね!
2-4. K-weighting その 2 - 複合音 -
「等ラウドネス曲線」のもう 1 つの注意点として、「単一の sin 波(純音)再生を基準にして作られたものである」ということを忘れてはいけません。
複合音に対してはどれくらい当てはまるのでしょうか?幸いにして手元にラウドネスメーターとトーンジェネレーターがあれば比較的簡単に体感することが出来ます。
下記のような実験をしてみましょう
同じラウドネス値の sin 波とピンクノイズを交互に鳴らし、音量感を比較する。sin 波の周波数や視聴音量など条件を変えつつ行う
同じラウドネス値で同じ基本周波数の sin 波と矩形波を交互に鳴らし、音量感を比較する、周波数や視聴音量など条件を変えつつ行う
この実験をしてみると、ラウドネス値が同じでも音量感は結構違ってくる場合があることに気がつくと思います。また、これは「等ラウドネス曲線が sin 波基準だから」という理由だけではどうにも説明が付きそうもありません。
複合音に対しての現行のラウドネス値計算の当てはまらなさは、様々な要因がありそうです。個人的にはもう少し調査や実験をしていて、下記は影響ありそうだと考えています。(詳細に関しては次の機会があれば……)
帯域の広さの影響
位相差の影響
うなり (干渉) の影響
スペクトルマスキングの影響
音色による心理的な影響
現行のラウドネス値計算では複合音についてはあまり触れられていないのですが、騒音の研究などを中心に複合音にも触れたラウドネス値計算が行われている例をいくつか見つけることができます。(複合音用の等ラウドネス曲線も存在するようです)
いずれ計算量などに余裕が出来てくれば、こういった要素を取り入れたものが次世代ラウドネス値計算として採用される可能性も十分にあるでしょう。
3. ラウドネスについて本気出して考えてみた
ここまで、「真のラウドネス値」を追い求めることを中心としてラウドネスに関する考察をしてきましたが、逆に「真のラウドネス値」などというものは存在しないことが良く分かる結果となりました。
しかし、ラウドネスについて本気出して考えていく中で、表現にも大きく関わる良質な知見を得ることができるのでは?とも思います。
本稿がそんなきっかけになってくれれば嬉しいです!
参考
[CEDEDC 2012] 適切な音量について考える~ゲームオーディオのラウドネス基準はどうあるべきか?~
(ラウドネス規準の考え方や業界ごとの違いが紹介されています)
ラウドネスメータの基本原理 | 東陽テクニカ | “はかる”技術で未来を創る | 東陽テクニカルマガジン
(ラウドネス値の計算方法の概要が紹介されています)
EBU ラウドネス標準 R-128
(EBU R-128 に沿った各種計測値の解説があります)
小野測器-技術レポート 音質評価とは
(より凝ったラウドネス値を求めるための計算例が紹介されています)
海苔の作り方