Welke codecs zijn er voor meeslepende en 3D-audio?

Meeslepende audio is een driedimensionaal (3D) geluidsveld dat wordt gecreëerd door zij- en overheadluidsprekers te combineren. Er is een verscheidenheid aan industriestandaard- en aangepaste codecs beschikbaar voor het implementeren van meeslepende audio.

Deze FAQ bespreekt de werking van de MPEG-H Audio-codec (universele immersieve audiocodering) en de nog in ontwikkeling zijnde MPEG-I Immersive Audio (gecomprimeerde weergave voor virtuele en augmented reality (AR/VR)-codec. Vervolgens wordt gekeken naar een op maat gemaakte meeslepende audiocodec van Dolby. Het sluit af met een korte beschouwing van een reeks documenten van de Society of Motion Picture and Television Engineers (SMPTE), bedoeld om meeslepende audio in meerdere implementaties te helpen standaardiseren.

MPEG-H is ontwikkeld door de ISO/IEC Moving Picture Experts Group (MPEG) en Fraunhofer IIS. Het ondersteunt 8 tot 64 luidsprekers en maximaal 128 codec-kernkanalen. De kanalen kunnen conventionele audiokanalen zijn, audioobjecten met 3D-locatiemetadata of een volledig bolvormig ‘ambisonics’ surround sound-formaat. Het kan een reeks luisteromgevingen ondersteunen, van grote surroundsystemen tot hoofdtelefoons en virtual reality-brillen.

MPEG-H begint met een perceptuele decoder voor compressie van ingangssignaalklassen, inclusief kanalen, objecten en ambisonics van hogere orde (HOA), met behulp van uitgebreide MPEG Unified Speech and Audio Coding voor drie dimensies (USAC-3D). Vervolgens worden kanaalsignalen, objecten en HOA-coëfficiënten gedecodeerd en via speciale renderers weergegeven in de doelreproductieluidsprekeropstelling. De resulterende virtuele signalen worden gedownmixt naar fysieke luidsprekers of via een biaurale renderer verzonden om te luisteren op headsets en soortgelijke omgevingen (Figuur 1).

Figuur 1. MPEG-H meeslepende audiodecoderingsstructuur (Afbeelding: Cambridge University Press).

MPEG-I gebruikt MPEG-H als basis en voegt functies toe voor AR/VR. MPEG-I combineert een MPEG-H-bitstream met een MPEG-I-bitstream. De MPEG-I-bitstream beschrijft de AR/VR-scène-informatie. De renderer bevat ook informatie over de omgeving, zoals de akoestische en geometrische eigenschappen, dynamische gebruikersoriëntatie en positie-updates. De MPEG-I-renderer maakt ook gebruik van de Scene State-gegevens die de huidige status van alle 6DoF-metagegevens bevatten die de zes mechanische vrijheidsgraden voor het hoofd van de luisteraar in een driedimensionale ruimte beschrijven (Figuur 2).

Figuur 2. MPEG-I meeslepende audiocodec-architectuur (Afbeelding: Audio Engineering Society).

Dolby Atmos
MPEG-H- en Dolby Atmos AC-4-codecs worden beschouwd als Next-Generation Audio (NGA)-systemen. Ze zijn objectgebaseerd en ondersteunen meeslepende audio. Ze zijn vergelijkbaar, maar niet hetzelfde. Beide ondersteunen bijvoorbeeld interactiviteit. MPEG-H gebruikt ‘presets’ terwijl AC-4 ‘presentaties’ gebruikt. Dialoogverbetering is een belangrijk kenmerk van AC-4. Het bevat schaalbare bitrates voor neveninformatie waarmee de gebruiker controle kan uitoefenen over het relatieve niveau van het dialoogkanaal. De Speech Spectral Frontend (SSF) is een op voorspellingen gebaseerde coderingstool die de bitrates voor spraakinhoud kan verlagen. Voor algemene audio wordt de Audio Spectral Frontend (ASF) gebruikt. Andere kenmerken van AC-4 zijn onder meer videoframesynchronisatiecodering, luidheidsbeheer, hybride levering via uitzend- en breedbandverbindingen, controle van het dynamisch bereik en EMDF-elementen (extensible metadata deliver format) voor incrementele metadata-informatie.

Standaardisatie is een belangrijke overweging voor NGA-systemen. De kern van AC-4 technologie is door het European Telecommunications Standards Institute (ETSI) gestandaardiseerd als TS 103 190. Digital Video Broadcasting (DVB) heeft het opgenomen in TS 101 154 en is door het Advanced Television Systems Committee (ATSC) overgenomen voor ATSC 3.0. De SMPTE heeft uitgebreide stappen ondernomen om de compatibiliteit van meeslepende audio over een verscheidenheid aan codecs te ontwikkelen.

SMPTE 2098
De ST 2098-documentensuite van SMPTE is gericht op het standaardiseren van meeslepende audio. Enkele elementen van de ST 2098-suite zijn onder meer:

  • 2098-1 definieert meeslepende audiometadata.
  • 2098-2 is het primaire document en de Immersive Audio Bitstream (IAB)-specificatie.
  • 2098-3 beschrijft de operationele verwachtingen en testaanbevelingen van de meeslepende audiorenderer.
  • 2098-4 voor het testen van de interoperabiliteit van meeslepende audiorenderers.
  • 2098-5 definieert meeslepende audiokanalen en geluidsveldgroepen voor digitale cinema.

ST 2098 is voornamelijk gebaseerd op Dolby Atmos, maar is gemaakt om uitbreidbaar en achterwaarts compatibel te zijn. Verschillende meeslepende audiosystemen, waaronder Dolby Atmos, Barco Auromax en DTS:X, hebben de interoperabiliteit met succes getest.

Samengevat
Er zijn verschillende codecs zoals MPEG-H en Dolby AC-4 beschikbaar voor meeslepende audio. Meer geavanceerde implementaties zoals MPEG-I zijn in ontwikkeling, en er wordt binnen de hele sector een inspanning geleverd door de SMPTE om interoperabiliteitsstandaarden te ontwikkelen voor meeslepende audiocodecs.

Referenties
Dolby AC-4: Audiolevering voor entertainmentdiensten van de volgende generatie, Dolby
Meeslepende audio, vastleggen, transport en weergave, Cambridge University Press
MPEG-I Immersive Audio – referentiemodel voor de Virtual/Augmented Reality-audiostandaard, Audio Engineering Society
MPEG-standaarden voor gecomprimeerde weergave van meeslepende audio, IEEE
SMPTE ST 2098-2:2019, IEEE