Có những codec nào cho âm thanh sống động và 3D?

Âm thanh sống động là trường âm thanh ba chiều (3D) được tạo ra bằng cách kết hợp loa bên và loa trên cao. Hiện có nhiều loại codec tùy chỉnh và tiêu chuẩn ngành để triển khai âm thanh sống động.

Câu hỏi thường gặp này xem xét hoạt động của codec MPEG-H Audio (mã hóa âm thanh đắm chìm phổ quát) và codec MPEG-I Immersive Audio (biểu diễn nén cho thực tế ảo và tăng cường (AR/VR) vẫn đang được phát triển. Sau đó, nó xem xét một codec âm thanh sống động tùy chỉnh từ Dolby, kết thúc bằng việc xem xét ngắn gọn một loạt tài liệu từ Hiệp hội Kỹ sư Điện ảnh và Truyền hình (SMPTE) nhằm giúp tiêu chuẩn hóa âm thanh sống động qua nhiều triển khai.

MPEG-H được phát triển bởi Nhóm chuyên gia hình ảnh chuyển động ISO/IEC (MPEG) và Fraunhofer IIS. Nó hỗ trợ từ 8 đến 64 loa và lên tới 128 kênh lõi codec. Các kênh có thể là kênh âm thanh thông thường, đối tượng âm thanh có siêu dữ liệu vị trí 3D hoặc định dạng âm thanh vòm 'ambisonics' hoàn toàn hình cầu. Nó có thể hỗ trợ nhiều môi trường nghe khác nhau, từ hệ thống âm thanh vòm lớn đến tai nghe và kính thực tế ảo.

MPEG-H bắt đầu bằng bộ giải mã nhận thức để nén các lớp tín hiệu đầu vào, bao gồm các kênh, đối tượng và môi trường xung quanh bậc cao hơn (HOA), sử dụng Mã hóa âm thanh và giọng nói hợp nhất MPEG mở rộng cho ba chiều (USAC-3D). Tiếp theo, tín hiệu kênh, đối tượng và hệ số HOA được giải mã và hiển thị theo bố cục loa tái tạo mục tiêu thông qua các trình kết xuất chuyên dụng. Các tín hiệu ảo thu được sẽ được trộn xuống loa vật lý hoặc được gửi qua trình kết xuất song âm để nghe trên tai nghe và các môi trường tương tự (Hình 1).

Hình 1. Cấu trúc giải mã âm thanh nhập vai MPEG-H (Hình ảnh: Nhà xuất bản Đại học Cambridge).

MPEG-I sử dụng MPEG-H làm nền tảng và bổ sung các tính năng cho AR/VR. MPEG-I kết hợp dòng bit MPEG-H với dòng bit MPEG-I. Dòng bit MPEG-I mô tả thông tin cảnh AR/VR. Trình kết xuất cũng kết hợp thông tin về môi trường, như các đặc tính âm thanh và hình học, hướng người dùng động và cập nhật vị trí. Trình kết xuất MPEG-I cũng sử dụng dữ liệu Trạng thái cảnh bao gồm trạng thái hiện tại của tất cả siêu dữ liệu 6DoF mô tả sáu bậc tự do cơ học cho đầu người nghe trong không gian ba chiều (Hình 2).

Hình 2. Kiến trúc codec âm thanh đắm chìm MPEG-I (Hình ảnh: Xã hội Kỹ thuật Âm thanh).

Dolby Atmos
Bộ giải mã MPEG-H và Dolby Atmos AC-4 được coi là hệ thống Âm thanh thế hệ tiếp theo (NGA). Chúng dựa trên đối tượng và hỗ trợ âm thanh sống động. Chúng giống nhau nhưng không giống nhau. Ví dụ, cả hai đều hỗ trợ tính tương tác. MPEG-H sử dụng 'cài đặt trước' trong khi AC-4 sử dụng 'bản trình bày'. Cải tiến hộp thoại là một tính năng quan trọng trong AC-4. Nó bao gồm tốc độ bit có thể mở rộng cho thông tin phụ cho phép người dùng kiểm soát mức độ tương đối của kênh hộp thoại. Giao diện phổ giọng nói (SSF) là một công cụ mã hóa dựa trên dự đoán có thể giảm tốc độ bit cho nội dung giọng nói. Đối với âm thanh chung, Giao diện phổ âm thanh (ASF) được sử dụng. Các tính năng khác của AC-4 bao gồm mã hóa đồng bộ hóa khung video, quản lý âm lượng, phân phối kết hợp qua các kết nối phát sóng và băng thông rộng, kiểm soát phạm vi động và các phần tử định dạng phân phối siêu dữ liệu mở rộng (EMDF) để tăng thông tin siêu dữ liệu.

Tiêu chuẩn hóa là một vấn đề quan trọng cần cân nhắc đối với các hệ thống NGA. Lõi của AC-4 công nghệ đã được Viện Tiêu chuẩn Viễn thông Châu Âu (ETSI) tiêu chuẩn hóa thành TS 103 190. Phát sóng Video Kỹ thuật số (DVB) đã tích hợp nó vào TS 101 154 và được Ủy ban Hệ thống Truyền hình Tiên tiến (ATSC) thông qua cho ATSC 3.0. SMPTE đã thực hiện các bước mở rộng để phát triển khả năng tương thích của âm thanh sống động trên nhiều loại codec.

SMPTE 2098
Bộ tài liệu ST 2098 của SMPTE nhằm mục đích tiêu chuẩn hóa âm thanh sống động. Một số thành phần của bộ ST 2098 bao gồm:

  • 2098-1 xác định siêu dữ liệu âm thanh sống động.
  • 2098-2 là tài liệu chính và thông số kỹ thuật Dòng bit âm thanh sống động (IAB).
  • 2098-3 mô tả các kỳ vọng về hoạt động của trình kết xuất âm thanh sống động và các đề xuất thử nghiệm.
  • 2098-4 để thử nghiệm khả năng tương tác của trình kết xuất âm thanh sống động.
  • 2098-5 xác định các kênh âm thanh và nhóm trường âm thanh đắm chìm trong rạp chiếu phim kỹ thuật số.

ST 2098 chủ yếu dựa trên Dolby Atmos nhưng đã được tạo ra để có thể mở rộng và tương thích ngược. Một số hệ thống âm thanh sống động, bao gồm Dolby Atmos, Barco Auromax và DTS: X, đã thử nghiệm thành công khả năng tương tác.

Tổng kết
Có một số codec như MPEG-H và Dolby AC-4 có sẵn cho âm thanh sống động. Các triển khai nâng cao hơn như MPEG-I đang được phát triển và SMPTE đang nỗ lực trong toàn ngành để phát triển các tiêu chuẩn về khả năng tương tác cho các codec âm thanh sống động.

dự án
Dolby AC-4: Cung cấp âm thanh cho các dịch vụ giải trí thế hệ tiếp theo, Dolby
Âm thanh sống động, thu thập, truyền tải và kết xuất, Nhà xuất bản Đại học Cambridge
Âm thanh sống động MPEG-I – Mô hình tham chiếu cho tiêu chuẩn âm thanh thực tế ảo/tăng cường, Hiệp hội kỹ thuật âm thanh
Tiêu chuẩn MPEG để thể hiện nén âm thanh sống động, IEEE
SMPTE ST 2098-2:2019, IEEE