Quali codec sono disponibili per l'audio coinvolgente e 3D?

L'audio immersivo è un campo sonoro tridimensionale (3D) creato combinando altoparlanti laterali e superiori. Sono disponibili numerosi codec standard di settore e personalizzati per l'implementazione di un audio coinvolgente.

Questa domanda frequente esamina il funzionamento del codec MPEG-H Audio (codificazione audio immersiva universale) e del codec MPEG-I Immersive Audio (rappresentazione compressa per realtà virtuale e aumentata (AR/VR) ancora in fase di sviluppo. Quindi esamina un codec audio immersivo personalizzato di Dolby. Si chiude considerando brevemente una serie di documenti della Society of Motion Picture and Television Engineers (SMPTE) intesi a contribuire a standardizzare l'audio immersivo in molteplici implementazioni.

MPEG-H è stato sviluppato dall'ISO/IEC Moving Picture Experts Group (MPEG) e dal Fraunhofer IIS. Supporta da 8 a 64 altoparlanti e fino a 128 canali core codec. I canali possono essere canali audio convenzionali, oggetti audio con metadati di posizione 3D o un formato audio surround “ambisonico” completamente sferico. Può supportare una vasta gamma di ambienti di ascolto, dai grandi sistemi surround alle cuffie e agli occhiali per la realtà virtuale.

MPEG-H inizia con un decodificatore percettivo per la compressione delle classi di segnali in ingresso, inclusi canali, oggetti e ambisonici di ordine superiore (HOA), utilizzando la codifica audio e vocale unificata MPEG estesa per tre dimensioni (USAC-3D). Successivamente, i segnali dei canali, gli oggetti e i coefficienti HOA vengono decodificati e renderizzati nel layout dell'altoparlante di riproduzione target tramite renderer dedicati. I segnali virtuali risultanti vengono downmixati agli altoparlanti fisici o inviati attraverso un renderer biaurale per l'ascolto su cuffie e ambienti simili (Figure 1 ).

Figura 1. Struttura di decodifica audio immersiva MPEG-H (Immagine: Cambridge University Press).

MPEG-I utilizza MPEG-H come base e aggiunge funzionalità per AR/VR. MPEG-I combina un bitstream MPEG-H con un bitstream MPEG-I. Il bitstream MPEG-I descrive le informazioni sulla scena AR/VR. Il renderer incorpora anche informazioni sull'ambiente, come le sue proprietà acustiche e geometriche, l'orientamento dinamico dell'utente e gli aggiornamenti della posizione. Il renderer MPEG-I utilizza anche i dati Scene State che includono lo stato corrente di tutti i metadati 6DoF che descrivono i sei gradi di libertà meccanici per la testa dell'ascoltatore nello spazio tridimensionale (Figure 2 ).

Figura 2. Architettura del codec audio immersivo MPEG-I (Immagine: Società di Ingegneria Audio).

Dolby Atmos
I codec MPEG-H e Dolby Atmos AC-4 sono considerati sistemi NGA (Next Generation Audio). Sono basati su oggetti e supportano l'audio coinvolgente. Sono simili ma non uguali. Ad esempio, entrambi supportano l'interattività. MPEG-H utilizza "preimpostazioni" mentre AC-4 utilizza "presentazioni". Il miglioramento dei dialoghi è una caratteristica importante in AC-4. Include bitrate scalabili per informazioni secondarie che consentono all'utente il controllo del livello relativo del canale di dialogo. Lo Speech Spectral Frontend (SSF) è uno strumento di codifica basato sulla previsione che può ridurre i bitrate per il contenuto vocale. Per l'audio generale, viene utilizzato l'Audio Spectral Frontend (ASF). Altre caratteristiche di AC-4 includono la codifica della sincronizzazione dei fotogrammi video, la gestione del volume, la distribuzione ibrida su connessioni broadcast e a banda larga, il controllo della gamma dinamica e gli elementi EMDF (Extensible Metadata Deliver Format) per informazioni sui metadati incrementali.

La standardizzazione è una considerazione importante per i sistemi NGA. Il nucleo di AC-4 la tecnologia è stato standardizzato dall'European Telecommunications Standards Institute (ETSI) come TS 103 190. Digital Video Broadcasting (DVB) lo ha incorporato in TS 101 154 ed è stato adottato dall'Advanced Television Systems Committee (ATSC) per ATSC 3.0. SMPTE ha adottato misure approfondite per sviluppare la compatibilità dell'audio coinvolgente con una varietà di codec.

SMPTE 2098
La suite di documenti ST 2098 di SMPTE mira a standardizzare l'audio immersivo. Alcuni degli elementi della suite ST 2098 includono:

  • 2098-1 definisce i metadati audio immersivi.
  • 2098-2 è il documento principale e la specifica Immersive Audio Bitstream (IAB).
  • 2098-3 descrive le aspettative operative del renderer audio immersivo e le raccomandazioni sui test.
  • 2098-4 per i test di interoperabilità del renderer audio immersivo.
  • 2098-5 definisce i canali audio immersivi del cinema digitale e i gruppi di campi sonori.

ST 2098 è basato principalmente su Dolby Atmos ma è stato creato per essere estensibile e retrocompatibile. Diversi sistemi audio immersivi, tra cui Dolby Atmos, Barco Auromax e DTS: X, hanno testato con successo l’interoperabilità.

Sommario
Sono disponibili diversi codec come MPEG-H e Dolby AC-4 per un audio coinvolgente. Implementazioni più avanzate come MPEG-I sono in fase di sviluppo e c'è uno sforzo a livello di settore guidato da SMPTE per sviluppare standard di interoperabilità per codec audio coinvolgenti.

Riferimenti
Dolby AC-4: distribuzione audio per servizi di intrattenimento di prossima generazione, Dolby
Audio immersivo, acquisizione, trasporto e rendering, Cambridge University Press
Audio immersivo MPEG-I: modello di riferimento per lo standard audio per realtà virtuale/aumentata, Audio Engineering Society
Standard MPEG per la rappresentazione compressa dell'audio immersivo, IEEE
SMPTE ST 2098-2:2019, IEEE