มีตัวแปลงสัญญาณอะไรบ้างสำหรับเสียงที่สมจริงและ 3D

เสียงที่สมจริงเป็นสนามเสียงสามมิติ (3D) ที่สร้างขึ้นโดยการรวมลำโพงด้านข้างและลำโพงเหนือศีรษะเข้าด้วยกัน มีตัวแปลงสัญญาณมาตรฐานอุตสาหกรรมและแบบกำหนดเองที่หลากหลายสำหรับการนำเสียงที่ดื่มด่ำ

คำถามที่พบบ่อยนี้จะตรวจสอบการทำงานของตัวแปลงสัญญาณ MPEG-H Audio (universal immersive audio coding) และตัวแปลงสัญญาณ MPEG-I Immersive Audio ที่ยังอยู่ระหว่างการพัฒนา (การแสดงแบบบีบอัดสำหรับความเป็นจริงเสมือนและความเป็นจริงเสริม (AR/VR) จากนั้นจะพิจารณาที่ ตัวแปลงสัญญาณเสียงดื่มด่ำที่กำหนดเองจาก Dolby ปิดท้ายด้วยการพิจารณาชุดเอกสารจากสมาคมวิศวกรภาพยนตร์และโทรทัศน์ (SMPTE) สั้นๆ ซึ่งมีจุดประสงค์เพื่อช่วยสร้างมาตรฐานเสียงที่สมจริงในการใช้งานหลายๆ แบบ

MPEG-H ได้รับการพัฒนาโดย ISO/IEC Moving Picture Experts Group (MPEG) และ Fraunhofer IIS รองรับลำโพงได้ตั้งแต่ 8 ถึง 64 ตัว และช่องสัญญาณหลักตัวแปลงสัญญาณสูงสุด 128 ช่อง ช่องต่างๆ อาจเป็นช่องเสียงทั่วไป วัตถุเสียงที่มีข้อมูลเมตาของตำแหน่ง 3 มิติ หรือรูปแบบเสียงเซอร์ราวด์ 'ambisonics' ทรงกลมเต็มรูปแบบ สามารถรองรับสภาพแวดล้อมการฟังได้หลากหลาย ตั้งแต่ระบบเซอร์ราวด์ขนาดใหญ่ไปจนถึงหูฟังและแว่นตาเสมือนจริง

MPEG-H เริ่มต้นด้วยตัวถอดรหัสการรับรู้สำหรับการบีบอัดคลาสสัญญาณอินพุต รวมถึงช่อง วัตถุ และ ambisonics ที่มีลำดับสูงกว่า (HOA) โดยใช้ MPEG Unified Speech และการเข้ารหัสเสียงแบบขยายสำหรับสามมิติ (USAC-3D) จากนั้น สัญญาณช่องสัญญาณ วัตถุ และค่าสัมประสิทธิ์ HOA จะถูกถอดรหัสและเรนเดอร์ไปยังโครงร่างลำโพงที่สร้างเสียงเป้าหมายผ่านตัวเรนเดอร์เฉพาะ สัญญาณเสมือนที่ได้จะถูกดาวน์มิกซ์ไปยังลำโพงจริงหรือส่งผ่านตัวเรนเดอร์สองทางเพื่อฟังบนชุดหูฟังและสภาพแวดล้อมที่คล้ายกัน (รูป 1).

รูปที่ 1 โครงสร้างการถอดรหัสเสียงแบบดื่มด่ำ MPEG-H (ภาพ: สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์).

MPEG-I ใช้ MPEG-H เป็นรากฐานและเพิ่มคุณสมบัติสำหรับ AR/VR MPEG-I รวมบิตสตรีม MPEG-H กับบิตสตรีม MPEG-I บิตสตรีม MPEG-I อธิบายข้อมูลฉาก AR/VR ตัวเรนเดอร์ยังรวมข้อมูลเกี่ยวกับสภาพแวดล้อม เช่น คุณสมบัติทางเสียงและเรขาคณิต การวางแนวผู้ใช้แบบไดนามิก และการอัปเดตตำแหน่ง ตัวเรนเดอร์ MPEG-I ยังใช้ข้อมูล Scene State ซึ่งรวมถึงสถานะปัจจุบันของเมตาดาต้า 6DoF ทั้งหมดที่อธิบายระดับความเป็นอิสระทางกลไกทั้ง XNUMX ระดับสำหรับศีรษะของผู้ฟังในพื้นที่สามมิติ (รูป 2).

รูปที่ 2 สถาปัตยกรรมตัวแปลงสัญญาณเสียงแบบดื่มด่ำแบบ MPEG-I (ภาพ: สมาคมวิศวกรรมเสียง).

Dolby Atmos
ตัวแปลงสัญญาณ MPEG-H และ Dolby Atmos AC-4 ถือเป็นระบบ Next-Generation Audio (NGA) เป็นแบบอิงวัตถุและรองรับเสียงที่สมจริง พวกเขาคล้ายกันแต่ไม่เหมือนกัน ตัวอย่างเช่น ทั้งสองรองรับการโต้ตอบ MPEG-H ใช้ 'ค่าที่ตั้งล่วงหน้า' ในขณะที่ AC-4 ใช้ 'การนำเสนอ' การปรับปรุงกล่องโต้ตอบเป็นคุณสมบัติที่สำคัญใน AC-4 รวมถึงบิตเรตที่ปรับขนาดได้สำหรับข้อมูลด้านข้างที่ช่วยให้ผู้ใช้ควบคุมระดับสัมพัทธ์ของช่องสัญญาณโต้ตอบ Speech Spectral Frontend (SSF) เป็นเครื่องมือการเขียนโค้ดตามการคาดเดาที่สามารถลดบิตเรตสำหรับเนื้อหาคำพูดได้ สำหรับเสียงทั่วไป จะใช้ Audio Spectral Frontend (ASF) คุณสมบัติอื่นๆ ของ AC-4 ได้แก่ การเข้ารหัสการซิงโครไนซ์เฟรมวิดีโอ การจัดการความดัง การจัดส่งแบบไฮบริดผ่านการออกอากาศและการเชื่อมต่อบรอดแบนด์ การควบคุมช่วงไดนามิก และองค์ประกอบรูปแบบการนำเสนอข้อมูลเมตาที่ขยายได้ (EMDF) สำหรับข้อมูลเมตาดาต้าที่เพิ่มขึ้น

การกำหนดมาตรฐานถือเป็นข้อพิจารณาที่สำคัญสำหรับระบบ NGA แกนกลางของ AC-4 เทคโนโลยี ได้รับการกำหนดมาตรฐานโดย European Telecommunications Standards Institute (ETSI) เป็น TS 103 190 Digital Video Broadcasting (DVB) ได้รวมไว้ใน TS 101 154 และได้รับการรับรองโดย Advanced Television Systems Committee (ATSC) สำหรับ ATSC 3.0 SMPTE ได้ดำเนินการขั้นตอนต่างๆ มากมายเพื่อพัฒนาความเข้ากันได้ของเสียงที่ดื่มด่ำกับตัวแปลงสัญญาณที่หลากหลาย

SMPTE 2098
ชุดเอกสาร ST 2098 จาก SMPTE มีวัตถุประสงค์เพื่อสร้างมาตรฐานเสียงที่ดื่มด่ำ องค์ประกอบบางส่วนของชุด ST 2098 ประกอบด้วย:

  • 2098-1 กำหนดข้อมูลเมตาของเสียงที่ดื่มด่ำ
  • 2098-2 เป็นเอกสารหลักและข้อกำหนด Immersive Audio Bitstream (IAB)
  • 2098-3 อธิบายความคาดหวังในการปฏิบัติงานของตัวเรนเดอร์เสียงที่สมจริงและคำแนะนำในการทดสอบ
  • 2098-4 สำหรับการทดสอบการทำงานร่วมกันของตัวเรนเดอร์เสียงแบบดื่มด่ำ
  • 2098-5 กำหนดช่องสัญญาณเสียงและกลุ่มสนามเสียงที่ดื่มด่ำในโรงภาพยนตร์ดิจิทัล.

ST 2098 ใช้ระบบ Dolby Atmos เป็นหลัก แต่ได้รับการออกแบบมาให้สามารถขยายและเข้ากันได้แบบย้อนหลัง ระบบเสียงที่สมจริงหลายระบบ รวมถึง Dolby Atmos, Barco Auromax และ DTS: X ได้ทำการทดสอบการทำงานร่วมกันได้สำเร็จ

สรุป
มีตัวแปลงสัญญาณหลายตัวเช่น MPEG-H และ Dolby AC-4 สำหรับเสียงที่ดื่มด่ำ การใช้งานขั้นสูงเพิ่มเติม เช่น MPEG-I อยู่ระหว่างการพัฒนา และมีความพยายามทั่วทั้งอุตสาหกรรมที่นำโดย SMPTE ในการพัฒนามาตรฐานการทำงานร่วมกันสำหรับตัวแปลงสัญญาณเสียงที่สมจริง

อ้างอิง
Dolby AC-4: การส่งมอบเสียงสำหรับบริการความบันเทิงแห่งอนาคต, Dolby
เสียง การจับภาพ การขนส่ง และการเรนเดอร์ที่สมจริง สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์
MPEG-I Immersive Audio – โมเดลอ้างอิงสำหรับมาตรฐานเสียงเสมือนจริง/เสริม สมาคมวิศวกรรมเสียง
มาตรฐาน MPEG สำหรับการนำเสนอเสียงที่ดื่มด่ำแบบบีบอัด, IEEE
พีทีอี ST 2098-2:2019, IEEE