В чем разница между объектным и канальным звуком?

В иммерсивном звуке используются различные методы, основанные на каналах и объектах, для обеспечения высококачественного прослушивания. Существует три основные категории пространственного звука: аудио на основе каналов (CBA), аудио на основе объектов (OBA) и аудио на основе сцен (SBA) — это следующее поколение OBA.

CBA — это простейшая форма пространственного звука, но она не обеспечивает погружения. Базовая форма CBA — стереосистема с двумя динамиками. Добавление третьего динамика в центре может улучшить качество звука, действуя как якорь, который помогает улучшить качество стереозвучания для слушателей, находящихся не в оптимальном месте. Самый распространенный ЦБ technology сегодня используется объемный звук. Он добавляет больше динамиков в двумерном (2D) горизонтальном расположении вокруг слушателя, поэтому звук может исходить спереди, с обеих сторон и сзади. Распространенным форматом системы объемного звучания является 5.1, который состоит из 5 основных динамиков, которые воспроизводят левый, правый и центральный передние каналы вместе с правым и левым тыловыми каналами, а также один сабвуфер, обычно расположенный спереди. Объемный звук можно «виртуализировать» в конфигурации динамиков звуковой панели перед слушателем.

Рисунок 1. CBA записывается с помощью нескольких микрофонов, стратегически расположенных в 2D-пространстве (Изображение: Транзакции APSIPA по обработке сигналов и информации).

Объектно-ориентированный звук
OBA — это система, в которой аудио «объекты», такие как голоса, отдельные инструменты, звуковые эффекты и т. д., хранятся в своих аудиофайлах, обычно со соответствующими метаданными, определяющими их уровни, расположение, панорамирование и другие характеристики. Кроме того, OBA включает концепцию сцен для представления метаданных объектов, которая нейтральна по отношению к выходному аудиоформату и системе. Рендерер собирает все воедино. Он использует метаданные для смешивания аудиообъектов на основе устройств, например динамиков и наушников, а также макета, стерео, 5.1, 7.1 и т. д.

Поскольку аудиообъекты и связанные с ними метаданные передаются в средство рендеринга по отдельности, OBA дает слушателям больше возможностей контролировать процесс прослушивания. Когда создается объектно-ориентированная аудиосцена, слушатель может увеличивать громкость определенных объектов, отключать объекты (например, выключать рекламу) и даже выбирать другой язык для диалогов или субтитров (Рисунок 2).

Рисунок 2. Объектно-ориентированная функция аудиосцены позволяет слушателям персонализировать звук и связанные с ним метаданные (Изображение: Центр зрения, речи и обработки сигналов).

Звук на основе сцены
SBA использует амбисонику высшего порядка (HOA) для представления звука в полностью сферическом формате объемного звучания. Используя ТСЖ, звук можно воспроизводить в определенной точке трехмерного пространства. ТСЖ требует больше микрофонов, а микрофоны более сложны. Микрофонный капсюль ambisonics состоит из четырех независимых микрофонов, которые могут улавливать звук в виде кардиоидной диаграммы направленности. SBA сложнее, чем OBA. Он может использовать векторное панорамирование, панорамирование по интенсивности, панорамирование с задержкой, эффект Доплера и т. д. для точного размещения звука и перемещения его в трехмерном пространстве для создания полного погружения.

SBA хорошо подходит для использования в средах виртуальной реальности (VR) и дополненной реальности (AR). Он поддерживает позиционный звук, который динамически регулирует звуковое поле в зависимости от положения головы слушателя относительно виртуального трехмерного мира. SBA можно проводить с использованием обычных динамиков, очков VR/AR и т. д.

Не взаимоисключающие
Коммерческие аудиосистемы, такие как Dolby Atmos и DTS:X, могут работать с форматами CBA и OBA. Например, Atmos поддерживает до 128 независимых каналов. Это означает 118 аудиообъектов плюс десять каналов для создания звукового слоя 7.1.2 (7 основных динамиков в двухмерном пространстве вокруг слушателя, сабвуфер и два верхних канала).

Для Dolby Atmos требуются отдельные «высотные» динамики, которые не нужны (но могут использоваться) с DTS:X. DTS:X адаптируется к большинству систем объемного звучания. Версия Pro может поддерживать до 30.2 каналов, но работает с меньшим количеством динамиков. Кроме того, хотя Atmos поддерживает максимум 128 каналов и 118 аудиообъектов, DTS:X можно настроить на поддержку неограниченного количества аудиообъектов.

Обзор
Из трех категорий пространственного звука: CBA, OBA и SBA, только две последние обеспечивают захватывающее трехмерное впечатление. CBA — это строго 3D-система доставки. SBA может поддерживать более сложную доставку контента с помощью HOA, предоставляя слушателю максимальный контроль над звуковым сопровождением. Он особенно подходит для сред AR/VR.

Рекомендации
Иммерсивный звук, захват, транспортировка и рендеринг, транзакции APSIPA по обработке сигналов и информации
Объектно-ориентированное аудио, Центр зрения, речи и обработки сигналов,
Что такое канальное аудио? Звуковые частицы
Что такое объектно-ориентированное аудио? Звуковые частицы