¿Qué códecs existen para audio inmersivo y 3D?

El audio inmersivo es un campo sonoro tridimensional (3D) creado mediante la combinación de altavoces laterales y superiores. Se encuentran disponibles una variedad de códecs personalizados y estándar de la industria para implementar audio inmersivo.

Estas preguntas frecuentes revisan el funcionamiento del códec MPEG-H Audio (codificación de audio inmersivo universal) y el códec MPEG-I Immersive Audio (representación comprimida para realidad virtual y aumentada (AR/VR), aún en desarrollo). Luego analiza un Códec de audio inmersivo personalizado de Dolby.Cierra considerando brevemente una serie de documentos de la Sociedad de Ingenieros de Cine y Televisión (SMPTE) destinados a ayudar a estandarizar el audio inmersivo en múltiples implementaciones.

MPEG-H fue desarrollado por el Grupo de Expertos en Imágenes en Movimiento (MPEG) de ISO/IEC y Fraunhofer IIS. Admite de 8 a 64 altavoces y hasta 128 canales centrales de códec. Los canales pueden ser canales de audio convencionales, objetos de audio con metadatos de ubicación 3D o un formato de sonido envolvente "ambisónico" completamente esférico. Puede admitir una variedad de entornos de escucha, desde grandes sistemas envolventes hasta auriculares y gafas de realidad virtual.

MPEG-H comienza con un decodificador de percepción para la compresión de clases de señales de entrada, incluidos canales, objetos y ambisónicos de orden superior (HOA), utilizando codificación unificada de voz y audio MPEG extendida para tres dimensiones (USAC-3D). A continuación, las señales de canal, los objetos y los coeficientes HOA se decodifican y renderizan en el diseño del altavoz de reproducción de destino a través de renderizadores dedicados. Las señales virtuales resultantes se mezclan con altavoces físicos o se envían a través de un renderizador biaural para escucharlas en auriculares y entornos similares (Figura 1 y XNUMX).

*Figura 1. Estructura de decodificación de audio inmersivo MPEG-H (Imagen:* *Cambridge University Press*).

MPEG-I utiliza MPEG-H como base y agrega funciones para AR/VR. MPEG-I combina un flujo de bits MPEG-H con un flujo de bits MPEG-I. El flujo de bits MPEG-I describe la información de la escena AR/VR. El renderizador también incorpora información sobre el entorno, como sus propiedades acústicas y geométricas, orientación dinámica del usuario y actualizaciones de posición. El renderizador MPEG-I también utiliza los datos del estado de la escena que incluyen el estado actual de todos los metadatos 6DoF que describen los seis grados mecánicos de libertad para la cabeza del oyente en un espacio tridimensional (Figura 2 y XNUMX).

*Figura 2. Arquitectura del códec de audio inmersivo MPEG-I (Imagen:* *Sociedad de ingeniería de audio*).

Dolby Atmos
Los códecs MPEG-H y Dolby Atmos AC-4 se consideran sistemas de audio de próxima generación (NGA). Están basados en objetos y admiten audio inmersivo. Son similares pero no iguales. Por ejemplo, ambos admiten la interactividad. MPEG-H usa "preajustes" mientras que AC-4 usa "presentaciones". La mejora de los diálogos es una característica importante en AC-4. Incluye velocidades de bits escalables para información adicional que permite al usuario controlar el nivel relativo del canal de diálogo. Speech Spectral Frontend (SSF) es una herramienta de codificación basada en predicción que puede reducir las velocidades de bits del contenido de voz. Para audio general, se utiliza Audio Spectral Frontend (ASF). Otras características del AC-4 incluyen codificación de sincronización de fotogramas de vídeo, gestión del volumen, entrega híbrida a través de conexiones de transmisión y banda ancha, control de rango dinámico y elementos de formato de entrega de metadatos extensible (EMDF) para información de metadatos incrementales.

La estandarización es una consideración importante para los sistemas NGA. El núcleo del AC-4 la tecnología ha sido estandarizado por el Instituto Europeo de Normas de Telecomunicaciones (ETSI) como TS 103 190. Digital Video Broadcasting (DVB) lo ha incorporado en TS 101 154 y ha sido adoptado por el Comité de Sistemas de Televisión Avanzados (ATSC) para ATSC 3.0. SMPTE ha tomado grandes medidas para desarrollar la compatibilidad del audio inmersivo en una variedad de códecs.

SMPTE 2098
El conjunto de documentos ST 2098 de SMPTE tiene como objetivo estandarizar el audio inmersivo. Algunos de los elementos de la suite ST 2098 incluyen:

2098-1 define metadatos de audio inmersivo.
2098-2 es el documento principal y la especificación Immersive Audio Bitstream (IAB).
2098-3 describe las expectativas operativas y las recomendaciones de prueba del renderizador de audio inmersivo.
2098-4 para pruebas de interoperabilidad del renderizador de audio inmersivo.
2098-5 define canales de audio inmersivo de cine digital y grupos de campos sonoros.

ST 2098 se basa principalmente en Dolby Atmos, pero se creó para ser extensible y compatible con versiones anteriores. Varios sistemas de audio inmersivo, incluidos Dolby Atmos, Barco Auromax y DTS:X, han probado con éxito la interoperabilidad.

Resumen
Hay varios códecs como MPEG-H y Dolby AC-4 disponibles para audio inmersivo. Se están desarrollando implementaciones más avanzadas como MPEG-I, y SMPTE está liderando un esfuerzo en toda la industria para desarrollar estándares de interoperabilidad para códecs de audio inmersivos.

Referencias
Dolby AC-4: Entrega de audio para servicios de entretenimiento de próxima generación, Dolby
Audio inmersivo, captura, transporte y renderizado, Cambridge University Press
Audio inmersivo MPEG-I: modelo de referencia para el estándar de audio de realidad virtual/aumentada, Audio Engineering Society
Estándares MPEG para representación comprimida de audio inmersivo, IEEE
SMPTE ST 2098-2:2019, IEEE