Welche Codecs gibt es für Immersive- und 3D-Audio?

Immersive Audio ist ein dreidimensionales (3D) Klangfeld, das durch die Kombination von seitlichen und Overhead-Lautsprechern entsteht. Für die Implementierung von immersivem Audio stehen verschiedene branchenübliche und benutzerdefinierte Codecs zur Verfügung.

In dieser FAQ wird die Funktionsweise des MPEG-H Audio-Codecs (Universal Immersive Audio Coding) und des noch in der Entwicklung befindlichen MPEG-I Immersive Audio-Codecs (komprimierte Darstellung für virtuelle und erweiterte Realität (AR/VR)) besprochen benutzerdefinierter immersiver Audio-Codec von Dolby. Abschließend wird kurz auf eine Reihe von Dokumenten der Society of Motion Picture and Television Engineers (SMPTE) eingegangen, die bei der Standardisierung von immersivem Audio über mehrere Implementierungen hinweg helfen sollen.

MPEG-H wurde von der ISO/IEC Moving Picture Experts Group (MPEG) und dem Fraunhofer IIS entwickelt. Es unterstützt 8 bis 64 Lautsprecher und bis zu 128 Codec-Kernkanäle. Bei den Kanälen kann es sich um herkömmliche Audiokanäle, Audioobjekte mit 3D-Standortmetadaten oder ein vollständig sphärisches „Ambisonics“-Surround-Sound-Format handeln. Es kann eine Reihe von Hörumgebungen unterstützen, von großen Surround-Systemen bis hin zu Kopfhörern und Virtual-Reality-Brillen.

MPEG-H beginnt mit einem Wahrnehmungsdecoder zur Komprimierung von Eingangssignalklassen, einschließlich Kanälen, Objekten und Ambisonics höherer Ordnung (HOA), unter Verwendung der erweiterten MPEG Unified Speech and Audio Coding für drei Dimensionen (USAC-3D). Als nächstes werden Kanalsignale, Objekte und HOA-Koeffizienten dekodiert und über spezielle Renderer in das Lautsprecherlayout für die Zielwiedergabe gerendert. Die resultierenden virtuellen Signale werden auf physische Lautsprecher heruntergemischt oder über einen biauralen Renderer gesendet, um sie über Headsets und ähnliche Umgebungen anzuhören (Figure 1).

*Abbildung 1. MPEG-H immersive Audio-Dekodierungsstruktur (Bild:* *Cambridge University Press*).

MPEG-I nutzt MPEG-H als Grundlage und fügt Funktionen für AR/VR hinzu. MPEG-I kombiniert einen MPEG-H-Bitstrom mit einem MPEG-I-Bitstrom. Der MPEG-I-Bitstream beschreibt die AR/VR-Szeneninformationen. Der Renderer integriert auch Informationen über die Umgebung, wie akustische und geometrische Eigenschaften, dynamische Benutzerorientierung und Positionsaktualisierungen. Der MPEG-I-Renderer verwendet auch die Scene State-Daten, die den aktuellen Status aller 6DoF-Metadaten umfassen, die die sechs mechanischen Freiheitsgrade für den Kopf des Hörers im dreidimensionalen Raum beschreiben (Figure 2).

*Abbildung 2. MPEG-I immersive Audio-Codec-Architektur (Bild:* *Audio Engineering Society*).

Dolby Atmos
MPEG-H- und Dolby Atmos AC-4-Codecs gelten als Next-Generation Audio (NGA)-Systeme. Sie sind objektbasiert und unterstützen immersives Audio. Sie sind ähnlich, aber nicht gleich. Beide unterstützen beispielsweise die Interaktivität. MPEG-H verwendet „Voreinstellungen“, während AC-4 „Präsentationen“ verwendet. Die Dialogverbesserung ist eine wichtige Funktion in AC-4. Es umfasst skalierbare Bitraten für Nebeninformationen, die es dem Benutzer ermöglichen, den relativen Pegel des Dialogkanals zu steuern. Das Speech Spectral Frontend (SSF) ist ein vorhersagebasiertes Codierungstool, das die Bitraten für Sprachinhalte reduzieren kann. Für allgemeines Audio wird das Audio Spectral Frontend (ASF) verwendet. Zu den weiteren Funktionen von AC-4 gehören Video-Frame-Synchronisationscodierung, Lautstärkemanagement, Hybridbereitstellung über Rundfunk- und Breitbandverbindungen, Steuerung des Dynamikbereichs und EMDF-Elemente (Extensible Metadata Deliver Format) für inkrementelle Metadateninformationen.

Standardisierung ist ein wichtiger Gesichtspunkt für NGA-Systeme. Der Kern von AC-4 Technologie wurde vom Europäischen Institut für Telekommunikationsnormen (ETSI) als TS 103 190 standardisiert. Digital Video Broadcasting (DVB) hat es in TS 101 154 integriert und es wurde vom Advanced Television Systems Committee (ATSC) für ATSC 3.0 übernommen. Die SMPTE hat umfangreiche Schritte unternommen, um die Kompatibilität von immersivem Audio mit einer Vielzahl von Codecs zu entwickeln.

SMPTE 2098
Die ST 2098-Dokumentensuite von SMPTE zielt auf die Standardisierung von immersivem Audio ab. Zu den Elementen der ST 2098-Suite gehören:

2098-1 definiert immersive Audio-Metadaten.
2098-2 ist das Hauptdokument und die Immersive Audio Bitstream (IAB)-Spezifikation.
2098-3 beschreibt die Betriebserwartungen und Testempfehlungen für immersive Audio-Renderer.
2098-4 für immersive Audio-Renderer-Interoperabilitätstests.
2098-5 definiert immersive Audiokanäle und Klangfeldgruppen für das digitale Kino.

ST 2098 basiert hauptsächlich auf Dolby Atmos, wurde jedoch erweiterbar und abwärtskompatibel entwickelt. Mehrere immersive Audiosysteme, darunter Dolby Atmos, Barco Auromax und DTS:X, haben die Interoperabilität erfolgreich getestet.

Zusammenfassung
Für immersives Audio stehen mehrere Codecs wie MPEG-H und Dolby AC-4 zur Verfügung. Fortgeschrittenere Implementierungen wie MPEG-I sind in der Entwicklung, und unter der Leitung der SMPTE gibt es branchenweite Bemühungen, Interoperabilitätsstandards für immersive Audio-Codecs zu entwickeln.

Bibliographie
Dolby AC-4: Audiobereitstellung für Unterhaltungsdienste der nächsten Generation, Dolby
Immersives Audio, Aufnahme, Transport und Rendering, Cambridge University Press
MPEG-I Immersive Audio – Referenzmodell für den Audiostandard Virtual/Augmented Reality, Audio Engineering Society
MPEG-Standards für die komprimierte Darstellung von immersivem Audio, IEEE
SMPTE ST 2098-2:2019, IEEE