イマーシブ オーディオと 3D オーディオにはどのようなコーデックがありますか?

イマーシブ オーディオは、横方向のスピーカーとオーバーヘッドのスピーカーを組み合わせて作成される 3 次元 (XNUMXD) 音場です。イマーシブ オーディオの実装には、さまざまな業界標準およびカスタム コーデックが利用できます。

この FAQ では、MPEG-H オーディオ (ユニバーサル イマーシブ オーディオ コーディング) コーデックと開発中の MPEG-I イマーシブ オーディオ (仮想現実および拡張現実 (AR/VR) 用の圧縮表現) コーデックの動作をレビューします。 Dolby のカスタム イマーシブ オーディオ コーデック。最後に、複数の実装間でイマーシブ オーディオの標準化を支援することを目的とした映画テレビ技術者協会 (SMPTE) の一連の文書を簡単に検討します。

MPEG-H は、ISO/IEC Moving Picture Experts Group (MPEG) とフラウンホーファー IIS によって開発されました。 8 ~ 64 個のスピーカーと最大 128 個のコーデック コア チャネルをサポートします。チャネルは、従来のオーディオ チャネル、3D 位置メタデータを含むオーディオ オブジェクト、または完全に球状の「アンビソニックス」サラウンド サウンド フォーマットにすることができます。大型サラウンドシステムからヘッドフォンやVRゴーグルまで、幅広いリスニング環境をサポートできます。

MPEG-H は、3 次元用の拡張 MPEG Unified Speech and Audiocoding (USAC-XNUMXD) を使用して、チャネル、オブジェクト、高次アンビソニックス (HOA) などの入力信号クラスを圧縮するための知覚デコーダーから始まります。次に、チャネル信号、オブジェクト、HOA 係数がデコードされ、専用のレンダラーを通じてターゲットの再生スピーカー レイアウトにレンダリングされます。結果として得られる仮想信号は、物理スピーカーにダウンミックスされるか、ヘッドセットや同様の環境で聴くためにバイラル レンダラーを通じて送信されます (図1).

図 1. MPEG-H イマーシブ オーディオ デコード構造 (画像: ケンブリッジ大学出版局).

MPEG-I は MPEG-H を基盤として使用し、AR/VR 用の機能を追加します。 MPEG-I は、MPEG-H ビットストリームと MPEG-I ビットストリームを組み合わせます。 MPEG-I ビットストリームは AR/VR シーン情報を記述します。レンダラーには、音響特性や幾何学的特性、動的なユーザーの向き、位置の更新など、環境に関する情報も組み込まれています。 MPEG-I レンダラーは、6 次元空間におけるリスナーの頭の XNUMX つの機械的自由度を記述するすべての XNUMXDoF メタデータの現在の状態を含むシーン状態データも使用します (図2).

図 2. MPEG-I イマーシブ オーディオ コーデック アーキテクチャ (画像: オーディオエンジニアリング協会).

ドルビーアトモス
MPEG-H および Dolby Atmos AC-4 コーデックは、次世代オーディオ (NGA) システムとみなされます。これらはオブジェクトベースであり、イマーシブ オーディオをサポートします。似ていますが、同じではありません。たとえば、どちらも対話性をサポートしています。 MPEG-H は「プリセット」を使用し、AC-4 は「プレゼンテーション」を使用します。ダイアログ拡張は AC-4 の重要な機能です。これには、ダイアログ チャネルの相対レベルをユーザーが制御できるサイド情報のスケーラブルなビットレートが含まれています。 Speech Spectral Frontend (SSF) は、音声コンテンツのビットレートを削減できる予測ベースのコーディング ツールです。一般的なオーディオの場合、Audio Spectral Frontend (ASF) が使用されます。 AC-4 のその他の機能には、ビデオ フレーム同期コーディング、ラウドネス管理、ブロードキャストおよびブロードバンド接続を介したハイブリッド配信、ダイナミック レンジ制御、および増分メタデータ情報の拡張可能メタデータ配信フォーマット (EMMDF) 要素が含まれます。

標準化は NGA システムにとって重要な考慮事項です。 AC-4の核心 テクノロジー は欧州電気通信標準協会 (ETSI) によって TS 103 190 として標準化されています。デジタル ビデオ放送 (DVB) はこれを TS 101 154 に組み込み、先進テレビジョン システム委員会 (ATSC) の ATSC 3.0 に採用しました。 SMPTE は、さまざまなコーデック間でイマーシブ オーディオの互換性を開発するために広範な措置を講じてきました。

SMPTE 2098
SMPTE の ST 2098 一連の文書は、イマーシブ オーディオの標準化を目的としています。 ST 2098 スイートの要素には次のようなものがあります。

  • 2098-1 はイマーシブ オーディオ メタデータを定義します。
  • 2098-2 は主要な文書であり、イマーシブ オーディオ ビットストリーム (IAB) 仕様です。
  • 2098-3 では、イマーシブ オーディオ レンダラーの動作上の期待とテストの推奨事項について説明します。
  • イマーシブ オーディオ レンダラーの相互運用性テスト用の 2098-4。
  • 2098-5 は、デジタル シネマ イマーシブ オーディオ チャンネルとサウンド フィールド グループを定義します。.

ST 2098 は主に Dolby Atmos に基づいていますが、拡張可能で下位互換性があるように作成されています。 Dolby Atmos、Barco Auromax、DTS: X などのいくつかのイマーシブ オーディオ システムは、相互運用性のテストに成功しています。

まとめ
イマーシブ オーディオに使用できる MPEG-H や Dolby AC-4 などのコーデックがいくつかあります。 MPEG-I などのより高度な実装が開発中であり、イマーシブ オーディオ コーデックの相互運用性標準を開発するために SMPTE が主導する業界全体の取り組みが行われています。

参考文献
Dolby AC-4: 次世代エンターテインメント サービスの音声配信、Dolby
イマーシブ オーディオ、キャプチャ、トランスポート、レンダリング、ケンブリッジ大学出版局
MPEG-I イマーシブ オーディオ – 仮想/拡張現実オーディオ標準の参照モデル、Audio Engineering Society
イマーシブ オーディオの圧縮表現に関する MPEG 標準、IEEE
SMPTE ST 2098-2:2019、IEEE