Quais codecs existem para áudio envolvente e 3D?

O áudio envolvente é um campo sonoro tridimensional (3D) criado pela combinação de alto-falantes laterais e superiores. Uma variedade de codecs personalizados e padrão da indústria estão disponíveis para implementar áudio envolvente.

Este FAQ analisa a operação do codec MPEG-H Audio (codificação de áudio imersiva universal) e do codec MPEG-I Immersive Audio (representação compactada para realidade virtual e aumentada (AR/VR) ainda em desenvolvimento. Em seguida, analisa um codec de áudio imersivo personalizado da Dolby. Encerra considerando brevemente uma série de documentos da Sociedade de Engenheiros de Cinema e Televisão (SMPTE) destinados a ajudar a padronizar o áudio imersivo em múltiplas implementações.

MPEG-H foi desenvolvido pelo Grupo de Especialistas em Imagens em Movimento ISO/IEC (MPEG) e Fraunhofer IIS. Ele suporta de 8 a 64 alto-falantes e até 128 canais principais de codec. Os canais podem ser canais de áudio convencionais, objetos de áudio com metadados de localização 3D ou um formato de som surround “ambisônico” totalmente esférico. Ele pode suportar uma variedade de ambientes de audição, desde grandes sistemas surround até fones de ouvido e óculos de realidade virtual.

O MPEG-H começa com um decodificador perceptual para compressão de classes de sinais de entrada, incluindo canais, objetos e ambisônicos de ordem superior (HOA), usando MPEG Unified Speech and Audio Coding estendido para três dimensões (USAC-3D). Em seguida, os sinais do canal, objetos e coeficientes HOA são decodificados e renderizados no layout do alto-falante de reprodução alvo por meio de renderizadores dedicados. Os sinais virtuais resultantes são mixados para alto-falantes físicos ou enviados através de um renderizador biaural para audição em fones de ouvido e ambientes semelhantes (Figura 1).

*Figura 1. Estrutura de decodificação de áudio imersiva MPEG-H (Imagem:* *Cambridge University Press*).

MPEG-I usa MPEG-H como base e adiciona recursos para AR/VR. MPEG-I combina um fluxo de bits MPEG-H com um fluxo de bits MPEG-I. O fluxo de bits MPEG-I descreve as informações da cena AR/VR. O renderizador também incorpora informações sobre o ambiente, como propriedades acústicas e geométricas, orientação dinâmica do usuário e atualizações de posição. O renderizador MPEG-I também usa os dados do Scene State que incluem o estado atual de todos os metadados 6DoF que descrevem os seis graus mecânicos de liberdade para a cabeça do ouvinte no espaço tridimensional (Figura 2).

*Figura 2. Arquitetura de codec de áudio imersivo MPEG-I (Imagem:* *Audio Engineering Society*).

Dolby Atmos
Os codecs MPEG-H e Dolby Atmos AC-4 são considerados sistemas de áudio de última geração (NGA). Eles são baseados em objetos e suportam áudio envolvente. Eles são semelhantes, mas não iguais. Por exemplo, ambos suportam interatividade. MPEG-H usa ‘predefinições’ enquanto AC-4 usa ‘apresentações’. O aprimoramento de diálogo é um recurso importante no AC-4. Inclui taxas de bits escalonáveis para informações secundárias que permitem ao usuário o controle do nível relativo do canal de diálogo. O Speech Spectral Frontend (SSF) é uma ferramenta de codificação baseada em previsão que pode reduzir as taxas de bits do conteúdo de fala. Para áudio geral, o Audio Spectral Frontend (ASF) é usado. Outros recursos do AC-4 incluem codificação de sincronização de quadro de vídeo, gerenciamento de volume, entrega híbrida em conexões de transmissão e banda larga, controle de faixa dinâmica e elementos de formato de entrega de metadados extensíveis (EMDF) para informações incrementais de metadados.

A normalização é uma consideração importante para os sistemas NGA. Núcleo do AC-4 tecnologia foi padronizado pelo European Telecommunications Standards Institute (ETSI) como TS 103 190. A Digital Video Broadcasting (DVB) incorporou-o no TS 101 154 e foi adotado pelo Advanced Television Systems Committee (ATSC) para ATSC 3.0. O SMPTE tomou medidas extensas para desenvolver compatibilidade de áudio envolvente em uma variedade de codecs.

SMPTE 2098
O conjunto de documentos ST 2098 da SMPTE visa padronizar áudio envolvente. Alguns dos elementos do conjunto ST 2098 incluem:

2098-1 define metadados de áudio imersivos.
2098-2 é o documento principal e a especificação Immersive Audio Bitstream (IAB).
2098-3 descreve as expectativas operacionais do renderizador de áudio imersivo e recomendações de teste.
2098-4 para testes de interoperabilidade de renderizador de áudio imersivo.
2098-5 define canais de áudio imersivos de cinema digital e grupos de campos sonoros.

ST 2098 é baseado principalmente em Dolby Atmos, mas foi criado para ser extensível e compatível com versões anteriores. Vários sistemas de áudio imersivos, incluindo Dolby Atmos, Barco Auromax e DTS: X, testaram com sucesso a interoperabilidade.

Resumo
Existem vários codecs como MPEG-H e Dolby AC-4 disponíveis para áudio envolvente. Implementações mais avançadas como MPEG-I estão em desenvolvimento, e há um esforço em toda a indústria liderado pelo SMPTE para desenvolver padrões de interoperabilidade para codecs de áudio imersivos.

Referências
Dolby AC-4: entrega de áudio para serviços de entretenimento de próxima geração, Dolby
Áudio envolvente, captura, transporte e renderização, Cambridge University Press
Áudio imersivo MPEG-I – modelo de referência para o padrão de áudio de realidade virtual/aumentada, Audio Engineering Society
Padrões MPEG para representação compactada de áudio imersivo, IEEE
SMPTE ST 2098-2:2019, IEEE