徹底解説!MPEG-H 3D Audio
ドイツのFraunhofer IISが開発し、「ISO/IEC Moving Picture Experts Group (MPEG)」によって国際標準化された次世代音声圧縮技術が「MPEG-H 3D Audio」(以下、MPEG-H 3DA)です。前身技術であるMP3やAACが、すっかり私たちのオーディオ生活に入り込んでいたのに対し、MPEG-H 3DAの認知度はまだそれほど高くありません。しかし、実は立体音響規格としてのポテンシャルは非常に高く、最新のSTBやAVアンプ、サウンドバーでサポートされることも珍しくなくなってきました。
今回はMPEG-H 3DAの技術や普及状況、更にLive Extremeでの対応状況についてご紹介します。
MPEG-H 3DAの技術解説
MPEG-H 3DAの構成
下図はMPEG-H 3DAデコーダーの構成を示しています。これを見ると明らかな通り、MPEG-H 3DAは以下の3つの立体音響技術を内包しており、自由に組み合わせて使用することができます。
チャンネル・ベース
オブジェクト・ベース
シーン・ベース(高次アンビソニックス)
各レンダラーには、ターゲットとなる最終出力段のスピーカー・レイアウト情報が与えられており、それを元にチャンネルへのレンダリングとミキシングが行われます。例えば、エンコードされた信号が7.1.4ch信号であっても、再生環境が5.1chスピーカー・レイアウトであれば、「Format Converter / Channel Render」の中で5.1chにダウンミックスされて出力されます。また出力先がヘッドホンであれば、バイノーラルにレンダリングして出力することもできます。
オブジェクトのレンダリング
オブジェクトはモノラル音声と音源の3D空間座標・音量などのメタデータをセットにした特殊な信号です。通常は一人の声や一つの楽器が一つのオブジェクトとなります。従来は、このような信号(トラック)は制作時にミックス・ダウンされて、チャンネル・ベースで視聴者に届けられましたが、オブジェクト・ベース・オーディオでは、AVアンプやサウンドバー、TVなど視聴者の機材のなかでリアルタイムにレンダリングされることになります。これにより、視聴者のリスニング環境や好みに応じて、異なるミックスが提供可能となります。
視聴者の環境でレンダリングされるというオブジェクト・ベース・オーディオの特徴は、実は立体音響以外にも様々な応用が効きます。
アナウンサーのコメンタリーと背景音の音量バランスを変えて、聞き取りやすくする機能を提供する
アナウンサーのコメンタリーを複数の言語で提供する
視覚障害者向けに音声ガイド(映像でしか伝わらない場面や登場人物の表情などの情報を逐一音声で解説)を提供する
このあたりは、次世代TV放送フォーマットとしては必要不可欠な機能とされています。
プロファイル
MPEG-H 3DAには、アルゴリズムの複雑さに応じて以下の3つのプロファイルが用意されています。
High Profile
Low Complexity Profile
Baseline Profile
このうち、既に実用化されているのは放送・ストリーミング用途の「Low Complexity Profile」と、その簡略版である「Baseline Profile」です。
もともとLow Complexity Profileは、放送やストリーミング向けにデコーダ負荷を軽減した符号化ツールセットとして2019年に規定されましたが、処理負荷の高い符号化ツールが残っていたため、より実用的で処理負荷を軽減したプロファイルが望まれていました。そこで翌年、Low Complexity Profileから高次アンビソニックス (HAO) と人声に特化した符号化ツール (TCX, ACELP) を除外したBaseline Profileが規定されました。
以降は特に断りのない限り、Baseline Profileに焦点を当てて解説していきます。
Baseline Profileのレベル
Baseline Profileは性能の違いにより、更に5つの「レベル」に分類されます。レベルが高い方がより高性能になっていきますが、現時点で市場に出ている製品(AVアンプやサウンドバー)のほぼ全てがLevel 3までの対応となっています。Level 3対応製品は、チャンネル・ベースでは7.1.4ch、オブジェクト・ベースでは24オブジェクトの再生が可能です。
MPEG-H 3DAの音質は?
音楽用フォーマットとして考えると、気になるのがその音質です。MPEG-H 3DAは、膨大なチャンネル数を伝送するために、ロッシーな圧縮を伴いますが、低ビットレートでも音質を担保するために最新の技術が取り入れられています。
音声の非可逆圧縮フォーマットというと「AAC (Advanced Audio Coding)」がよく知られています。これは、マスキング現象などにより人間の耳では聞こえにくくなる周波数成分を間引くことでデータを圧縮する手法で、1997年に規格化されました。
MPEG-H 3DA Baseline Profileの基本的なアルゴリズムもAACの系譜にありますが、AAC以降に標準化された以下の符号化ツールによって更なる高能率化を実現しています。
IGF (Intelligent Gap Filling): HE-AACで採用されたSBR (Spectral Band Replication) の考え方を発展させた技術。低周波数領域の符号化スペクトルと補助情報を利用して高周波スペクトルを復元することができる。
MCT (Multichannel Coding Tool): マルチチャンネル信号の中で音源の特性に応じて最適なチャンネルペアを選択し、それぞれに最適なステレオ符号化処理を行う。オブジェクトの符号化にも有効。
以下はARIB(電波産業会)による主観評価実験結果を示していますが、これによると、MPEG-H 3DAはAACの半分のビットレートで同等の音質を実現していることが分かります。
360 Reality Audioとの関係
ソニーが2019年から提供している立体音響フォーマット「360 Reality Audio」は、MPEG-H 3DA Baseline Profile (Level 3) に準拠していますが、以下のような制約があります。
完全オブジェクト・ベース
最大24オブジェクト
1オブジェクトあたり64kbps
360 Reality AudioはMPEG-H 3DAのサブセットに当たりますので、MPEG-H 3DAのデコーダーで360 Reality Audioコンテンツを再生することができます。例えば、MPEG-H 3DAに対応したFire TV StickとAVアンプを接続することで、「Amazon Music Unlimited」で配信されている360 Reality Audioコンテンツをマルチスピーカー再生することが可能です。
MPEG-H 3DAの普及状況
AVアンプ/サウンドバー
MPEG-H 3DAの開発元であるFraunhoferのウェブサイトに、MPEG-H 3DA Baseline Profile Level 3デコーダーを搭載し、Fraunhoferによって互換性の検証された製品のリストが掲載されています。Denon & Marantzの多くのAVアンプが対応しているほか、Sennheiserのサウンドバー(Ambeoシリーズ)も含まれています。
尚、本リストの "Performance Level" は、MPEG-Hのプロファイル・レベルではなく、Baseline Profile Level 3を更に細分化した指標であり、
P3: 16エレメント(オブジェクト/チャンネル)のデコードに対応
P4: 24オブジェクトのデコードまで対応(= 360 Reality Audioのデコードに対応)
していることを示しています。
STB(セットトップ・ボックス)
近年、MPEG-H 3DAのHDMIパススルーに対応したSTBが増えてきました。以下のSTBは、対応アプリをインストールし、MPEG-H 3DA対応のAVアンプ/サウンドバーと接続することで、MPEG-Hをスピーカー再生することが可能です。
Amazon Fire TVシリーズ
Fire TV Stick 4K Max (2nd Gen, 2023)
Fire TV Stick 4K (2nd Gen, 2023)
Fire TV Cube (3rd Gen, 2022)
Android TVデバイス
Chromecast with Google TV (HD, 2022)
Chromecast with Google TV (4K, 2020)
Nvidia Shield TV Pro (3rd Gen, 2019)
Nvidia Shield TV (3rd Gen, 2019)
デジタルテレビ放送
2017年5月に開始された韓国の地上波4K放送では、MPEG-H 3DA (Low Complexity Profile Level 3) が唯一の音声フォーマットとして採用されています。また、ブラジルでは次世代地上波デジタルTV規格「TV 3.0」の唯一の必須音声コーデックとしてMPEG-H 3DAが採用され、2022年より試験放送が開始されています(本放送は2025年を予定)。
日本では、次世代地デジ放送の音声として、MPEG-H 3DA Baseline Profile (Level 4) とDolby AC-4の2つの符号化方式が採用されることが決定しています。
インターネット配信
MPEG-H 3DAを利用した世界初のストリーミング・サービスは、2022年に韓国の放送局「SBS」がモバイル向けに提供したサッカー観戦サービスでした。このアプリでは、オブジェクトを利用し、4つのモードから音声を選択することができました。
Basic : TV放送と同じ音声
Enhanced Dialogue : 解説者の声が大きく聞きやすいモード
Site : 解説なしで会場の雰囲気を味わえるモード
Dialogue Only : 解説のみ
360 Reality Audioについては、Amazon Music Unlimitedをはじめ、いくつかのサービスでオンデマンド配信されています。
Live Extremeでの対応
Live Extremeは2023年以降、立体音響配信に力を入れており、数々のフォーマットに対応してきましたが、2024年夏にリリースされるLive Extreme Encoder v1.14では、遂にMPEG-H 3DAの配信に対応する予定です。ここには、7.1.4ch配信はもちろんのこと、24オブジェクト配信や22.2ch配信のサポートも含まれています。
MPEG-H 3DA配信仕様
配信方式: ライブ配信, 疑似ライブ配信, オンデマンド配信
配信プロトコル: HLS, MPEG-DASH
音声入力チャンネル数: 最大25ch
コーデック: MPEG-H 3D Audio Baseline Profile
サンプルレート: 48kHz
ビットレート: 32, 40, 48, 56, 64, 80, 96, 112, 128 kbps/ch
チャンネル・ベース: 2ch, 5.1ch, 7.1ch, 5.1.2ch, 5.1.4ch, 7.1.4ch, 22.2ch
オブジェクト・ベース: 最大24エレメント(オブジェクト/チャンネル)
メタデータ入力: MPEG-H Control Track
再生環境
MPEG-H 3DAはWebブラウザでの再生ができないため、STB向けに以下のネイティブ・プレイヤーを無償提供予定です。
Live Extreme Experience for Fire TV
Live Extreme Experience for Android TV
これを前述のMPEG-H 3DAパススルー対応STBにインストールし、MPEG-H 3DA対応AVアンプと接続することで、マルチスピーカー環境で立体音響再生することが可能となります。
また、このアプリにはMPEG-H 3DAのデコーダーが搭載されていますので、HDMIパススルーに非対応の環境であっても、アプリ内で最大7.1chのPCMにデコード(ダウンミックス)して再生することも可能です。
尚、コルグからMPEG-H 3DAのデコードに対応したスマホ・アプリをリリースする予定はありませんが、Live Extreme Encoderには立体音響に対応した「HPL」というバイノーラル・プロセッサが標準搭載されているので、MPEG-H 3DAと同時にHPLを配信することで、あらゆる視聴者にリーチすることができます。
まとめ
MPEG-H 3DAは放送分野での採用が先行し、360 Reality Audioを除きインターネット配信で利用されることはあまりありませんでした。しかし、Live Extremeがエンコード・再生ともに対応することにより、状況が一変するかもしれません。日本の次世代地デジ放送の動向にも注目です。
Live Extremeはこれまでも立体音響に力を入れてきましたが、放送業界が重視している22.2ch、あるいは360 Reality Audioと同等の24オブジェクト配信は、MPEG-H 3DAをサポートすることで初めて実現できた機能であり、今後これを活用したエクストリームなコンテンツが増えていくことを期待しています。
この記事が気に入ったらサポートをしてみませんか?