Quels codecs existe-t-il pour l’audio immersif et 3D ?

L'audio immersif est un champ sonore tridimensionnel (3D) créé en combinant des haut-parleurs latéraux et aériens. Une variété de codecs standards et personnalisés sont disponibles pour la mise en œuvre d’un son immersif.

Cette FAQ passe en revue le fonctionnement du codec MPEG-H Audio (codage audio immersif universel) et du codec MPEG-I Immersive Audio (représentation compressée pour la réalité virtuelle et augmentée (AR/VR), encore en cours de développement). Elle examine ensuite un codec audio immersif personnalisé de Dolby. Il se termine en examinant brièvement une série de documents de la Society of Motion Picture and Television Engineers (SMPTE) destinés à aider à standardiser l'audio immersif dans plusieurs implémentations.

MPEG-H a été développé par le groupe d'experts en images animées ISO/IEC (MPEG) et Fraunhofer IIS. Il prend en charge de 8 à 64 haut-parleurs et jusqu'à 128 canaux principaux de codec. Les canaux peuvent être des canaux audio conventionnels, des objets audio avec des métadonnées de localisation 3D ou un format de son surround « ambisonique » entièrement sphérique. Il peut prendre en charge une gamme d’environnements d’écoute, des grands systèmes surround aux écouteurs et lunettes de réalité virtuelle.

MPEG-H commence par un décodeur perceptuel pour la compression des classes de signaux d'entrée, y compris les canaux, les objets et les ambisoniques d'ordre supérieur (HOA), utilisant le codage vocal et audio unifié MPEG étendu pour trois dimensions (USAC-3D). Ensuite, les signaux de canal, les objets et les coefficients HOA sont décodés et restitués vers la disposition des haut-parleurs de reproduction cible via des moteurs de rendu dédiés. Les signaux virtuels résultants sont mixés vers des haut-parleurs physiques ou envoyés via un moteur de rendu biaural pour être écoutés sur des casques et des environnements similaires (Figure 1).

*Figure 1. Structure de décodage audio immersif MPEG-H (Image :* *la presse de l'Universite de Cambridge*).

MPEG-I utilise MPEG-H comme base et ajoute des fonctionnalités pour AR/VR. MPEG-I combine un flux binaire MPEG-H avec un flux binaire MPEG-I. Le flux binaire MPEG-I décrit les informations de la scène AR/VR. Le moteur de rendu intègre également des informations sur l'environnement, telles que ses propriétés acoustiques et géométriques, l'orientation dynamique de l'utilisateur et les mises à jour de position. Le moteur de rendu MPEG-I utilise également les données Scene State qui incluent l'état actuel de toutes les métadonnées 6DoF qui décrivent les six degrés de liberté mécaniques de la tête de l'auditeur dans l'espace tridimensionnel (Figure 2).

*Figure 2. Architecture du codec audio immersif MPEG-I (Image :* *Audio Engineering Society*).

Dolby Atmos
Les codecs MPEG-H et Dolby Atmos AC-4 sont considérés comme des systèmes audio de nouvelle génération (NGA). Ils sont basés sur des objets et prennent en charge l’audio immersif. Ils sont similaires mais pas identiques. Par exemple, les deux prennent en charge l’interactivité. MPEG-H utilise des « préréglages » tandis que AC-4 utilise des « présentations ». L'amélioration des boîtes de dialogue est une fonctionnalité importante d'AC-4. Il comprend des débits binaires évolutifs pour les informations secondaires qui permettent à l'utilisateur de contrôler le niveau relatif du canal de dialogue. Le Speech Spectral Frontend (SSF) est un outil de codage basé sur la prédiction qui peut réduire les débits binaires du contenu vocal. Pour l’audio général, l’Audio Spectral Frontend (ASF) est utilisé. Les autres fonctionnalités d'AC-4 incluent le codage de synchronisation des images vidéo, la gestion du volume sonore, la diffusion hybride sur des connexions de diffusion et à large bande, le contrôle de la plage dynamique et les éléments de format de diffusion de métadonnées extensibles (EMDF) pour les informations de métadonnées incrémentielles.

La normalisation est une considération importante pour les systèmes NGA. Le noyau de l'AC-4 sans souci a été normalisé par l'Institut européen des normes de télécommunications (ETSI) sous le nom de TS 103 190. La diffusion vidéo numérique (DVB) l'a intégré dans le TS 101 154 et a été adopté par l'Advanced Television Systems Committee (ATSC) pour l'ATSC 3.0. La SMPTE a pris des mesures importantes pour développer la compatibilité de l'audio immersif avec une variété de codecs.

SMPTE 2098
La suite de documents ST 2098 de SMPTE vise à standardiser l'audio immersif. Certains des éléments de la suite ST 2098 incluent :

2098-1 définit les métadonnées audio immersives.
2098-2 est le document principal et la spécification Immersive Audio Bitstream (IAB).
2098-3 décrit les attentes de fonctionnement du moteur de rendu audio immersif et les recommandations de test.
2098-4 pour les tests d'interopérabilité des moteurs de rendu audio immersifs.
2098-5 définit les canaux audio immersifs et les groupes de champs sonores du cinéma numérique.

ST 2098 est principalement basé sur Dolby Atmos mais a été créé pour être extensible et rétrocompatible. Plusieurs systèmes audio immersifs, dont Dolby Atmos, Barco Auromax et DTS : X, ont testé avec succès l’interopérabilité.

Résumé
Il existe plusieurs codecs comme MPEG-H et Dolby AC-4 disponibles pour un audio immersif. Des implémentations plus avancées telles que MPEG-I sont en cours de développement, et un effort à l'échelle de l'industrie est mené par la SMPTE pour développer des normes d'interopérabilité pour les codecs audio immersifs.

Bibliographie
Dolby AC-4 : diffusion audio pour les services de divertissement de nouvelle génération, Dolby
Audio immersif, capture, transport et rendu, Cambridge University Press
MPEG-I Immersive Audio – Modèle de référence pour la norme audio de réalité virtuelle/augmentée, Audio Engineering Society
Normes MPEG pour la représentation compressée de l'audio immersif, IEEE
SMPTE ST 2098-2:2019, IEEE