Codec apa yang tersedia untuk audio imersif dan 3D?

Audio imersif adalah bidang suara tiga dimensi (3D) yang dibuat dengan menggabungkan speaker lateral dan overhead. Berbagai codec standar industri dan khusus tersedia untuk mengimplementasikan audio yang imersif.

FAQ ini mengulas pengoperasian codec MPEG-H Audio (universal immersive audio coding) dan MPEG-I Immersive Audio (representasi terkompresi untuk virtual dan augmented reality (AR/VR) codec yang masih dalam pengembangan. FAQ ini kemudian membahas a codec audio imersif khusus dari Dolby. Bagian ini ditutup dengan pertimbangan singkat serangkaian dokumen dari Society of Motion Picture and Television Engineers (SMPTE) yang dimaksudkan untuk membantu menstandardisasi audio imersif di berbagai implementasi.

MPEG-H dikembangkan oleh ISO/IEC Moving Picture Experts Group (MPEG) dan Fraunhofer IIS. Mendukung 8 hingga 64 speaker dan hingga 128 saluran inti codec. Saluran tersebut dapat berupa saluran audio konvensional, objek audio dengan metadata lokasi 3D, atau format suara surround ‘ambisonik’ yang sepenuhnya berbentuk bola. Ini dapat mendukung berbagai lingkungan pendengaran, mulai dari sistem surround besar hingga headphone dan kacamata realitas virtual.

MPEG-H dimulai dengan decoder persepsi untuk kompresi kelas sinyal input, termasuk saluran, objek, dan ambisonik tingkat tinggi (HOA), menggunakan perluasan MPEG Unified Speech dan Audio Coding untuk tiga dimensi (USAC-3D). Selanjutnya, sinyal saluran, objek, dan koefisien HOA didekodekan dan dirender ke tata letak loudspeaker reproduksi target melalui penyaji khusus. Sinyal virtual yang dihasilkan di-downmix ke speaker fisik atau dikirim melalui penyaji biural untuk didengarkan pada headset dan lingkungan serupa (Gambar 1).

Gambar 1. Struktur decoding audio imersif MPEG-H (Gambar: Pers Universitas Cambridge).

MPEG-I menggunakan MPEG-H sebagai fondasinya dan menambahkan fitur untuk AR/VR. MPEG-I menggabungkan bitstream MPEG-H dengan bitstream MPEG-I. Bitstream MPEG-I menjelaskan informasi adegan AR/VR. Perender juga menggabungkan informasi tentang lingkungan, seperti sifat akustik dan geometris, orientasi pengguna dinamis, dan pembaruan posisi. Perender MPEG-I juga menggunakan data Scene State yang mencakup status terkini dari semua metadata 6DoF yang menggambarkan enam derajat kebebasan mekanis untuk kepala pendengar dalam ruang tiga dimensi (Gambar 2).

Gambar 2. Arsitektur codec audio imersif MPEG-I (Gambar: Audio Engineering Society).

Dolby Atmos
Codec MPEG-H dan Dolby Atmos AC-4 dianggap sebagai sistem Audio Generasi Berikutnya (NGA). Mereka berbasis objek dan mendukung audio yang imersif. Mereka serupa tetapi tidak sama. Misalnya, keduanya mendukung interaktivitas. MPEG-H menggunakan 'preset' sedangkan AC-4 menggunakan 'presentasi'. Peningkatan dialog adalah fitur penting di AC-4. Ini mencakup bitrate yang dapat diskalakan untuk informasi sampingan yang memungkinkan pengguna mengontrol tingkat relatif saluran dialog. Speech Spectral Frontend (SSF) adalah alat pengkodean berbasis prediksi yang dapat mengurangi bitrate untuk konten ucapan. Untuk audio umum, digunakan Audio Spectral Frontend (ASF). Fitur lain dari AC-4 termasuk pengkodean sinkronisasi bingkai video, manajemen kenyaringan, pengiriman hibrid melalui koneksi siaran dan broadband, kontrol jangkauan dinamis, dan elemen format pengiriman metadata yang dapat diperluas (EMDF) untuk informasi metadata tambahan.

Standardisasi merupakan pertimbangan penting untuk sistem NGA. inti AC-4 teknologi telah distandarisasi oleh European Telecommunications Standards Institute (ETSI) sebagai TS 103 190. Digital Video Broadcasting (DVB) telah memasukkannya ke dalam TS 101 154, dan telah diadopsi oleh Advanced Television Systems Committee (ATSC) untuk ATSC 3.0. SMPTE telah mengambil langkah ekstensif untuk mengembangkan kompatibilitas audio imersif di berbagai codec.

SMPTE 2098
Rangkaian dokumen ST 2098 dari SMPTE ditujukan untuk menstandardisasi audio yang imersif. Beberapa elemen suite ST 2098 meliputi:

  • 2098-1 mendefinisikan metadata audio yang imersif.
  • 2098-2 adalah dokumen utama dan spesifikasi Immersive Audio Bitstream (IAB).
  • 2098-3 menjelaskan ekspektasi pengoperasian penyaji audio yang mendalam dan rekomendasi pengujian.
  • 2098-4 untuk pengujian interoperabilitas penyaji audio yang mendalam.
  • 2098-5 mendefinisikan saluran audio imersif sinema digital dan kelompok bidang suara.

ST 2098 pada dasarnya didasarkan pada Dolby Atmos tetapi telah dibuat agar dapat diperluas dan kompatibel ke belakang. Beberapa sistem audio imersif, termasuk Dolby Atmos, Barco Auromax, dan DTS: X, telah berhasil menguji interoperabilitas.

Kesimpulan
Ada beberapa codec seperti MPEG-H dan Dolby AC-4 yang tersedia untuk audio yang imersif. Implementasi yang lebih maju seperti MPEG-I sedang dalam pengembangan, dan ada upaya industri yang dipimpin oleh SMPTE untuk mengembangkan standar interoperabilitas untuk codec audio yang imersif.

Referensi
Dolby AC-4: Pengiriman audio untuk layanan hiburan generasi berikutnya, Dolby
Audio, pengambilan, pengangkutan, dan rendering yang mendalam, Cambridge University Press
MPEG-I Immersive Audio – Model Referensi Untuk Standar Audio Virtual/Augmented Reality, Audio Engineering Society
Standar MPEG untuk Representasi Terkompresi Audio Immersive, IEEE
SMPTE ST 2098-2:2019, IEEE