กรอบงานใหม่ในการสร้างการเคลื่อนไหวของมนุษย์จากภาษาแจ้ง

อัปเดต: 24 เมษายน 2024
กรอบงานใหม่ในการสร้างการเคลื่อนไหวของมนุษย์จากภาษาแจ้ง
การใช้ฉากที่จ่ายได้เป็นตัวแทนระดับกลางจะช่วยเพิ่มความสามารถในการสร้างการเคลื่อนไหวบนเกณฑ์มาตรฐาน (a) HumanML3D และ (b) HUMANISE และเพิ่มความสามารถของโมเดลในการสรุป (c) สถานการณ์ที่มองไม่เห็นอย่างมีนัยสำคัญ เครดิต: วัง และคณะ

โมเดลที่ใช้การเรียนรู้ของเครื่องซึ่งสามารถสร้างเนื้อหาประเภทต่างๆ ได้โดยอัตโนมัตินั้นมีความก้าวหน้ามากขึ้นในช่วงไม่กี่ปีที่ผ่านมา เฟรมเวิร์กเหล่านี้ได้เปิดโอกาสใหม่ๆ สำหรับการสร้างภาพยนตร์และการรวบรวมชุดข้อมูลเพื่อฝึกอัลกอริธึมหุ่นยนต์


แม้ว่าโมเดลที่มีอยู่บางรุ่นจะสามารถสร้างภาพที่สมจริงหรือเป็นงานศิลปะตามคำอธิบายข้อความได้ แต่การพัฒนา AI ที่สามารถสร้างวิดีโอของร่างมนุษย์ที่เคลื่อนไหวตามคำสั่งของมนุษย์นั้น ได้รับการพิสูจน์แล้วว่ามีความท้าทายมากขึ้น ในบทความที่ตีพิมพ์ล่วงหน้าบนเซิร์ฟเวอร์ arXiv และนำเสนอในการประชุม IEEE/CVF เรื่อง Computer Vision and Pattern Recognition 2024 นักวิจัยจาก Beijing Institute of เทคโนโลยี, BIGAI และมหาวิทยาลัยปักกิ่งนำเสนอกรอบการทำงานใหม่ที่มีแนวโน้มดีซึ่งสามารถรับมือกับงานนี้ได้อย่างมีประสิทธิภาพ

“การทดลองในช่วงแรกๆ ในงานก่อนหน้าของเรา HUMANIZE ระบุว่ากรอบงานสองขั้นตอนสามารถปรับปรุงการสร้างการเคลื่อนไหวของมนุษย์โดยใช้ภาษานำทางในฉาก 3 มิติ โดยการแบ่งงานออกเป็นการสร้างฉากกราวด์และการสร้างการเคลื่อนไหวแบบมีเงื่อนไข” Yixin Zhu ผู้เขียนร่วมของ กระดาษบอกกับ Tech Xplore

“งานด้านวิทยาการหุ่นยนต์บางชิ้นยังแสดงให้เห็นถึงผลกระทบเชิงบวกของความสามารถในการจ่ายต่อความสามารถในการวางภาพรวมของโมเดล ซึ่งเป็นแรงบันดาลใจให้เราใช้การจ่ายฉากเป็นการนำเสนอระดับกลางสำหรับงานที่ซับซ้อนนี้”

กรอบการทำงานใหม่ที่นำเสนอโดย Zhu และเพื่อนร่วมงานของเขาสร้างขึ้นจากโมเดลเชิงกำเนิดที่พวกเขาแนะนำเมื่อไม่กี่ปีก่อนที่เรียกว่า HUMANIZE นักวิจัยตั้งเป้าหมายที่จะปรับปรุงความสามารถของโมเดลนี้ในการสรุปปัญหาใหม่ๆ ได้ดี เช่น การสร้างการเคลื่อนไหวที่สมจริงเพื่อตอบสนองต่อการแจ้งเตือน "นอนราบกับพื้น" หลังจากเรียนรู้ที่จะสร้างการเคลื่อนไหว "นอนบนเตียง" อย่างมีประสิทธิภาพ

“วิธีการของเราแบ่งออกเป็นสองขั้นตอน ได้แก่ Affordance Diffusion Model (ADM) สำหรับการทำนายแผนที่ความจ่าย และ Affordance-to-Motion Diffusion Model (AMDM) เพื่อสร้างการเคลื่อนไหวของมนุษย์จากคำอธิบายและความจ่ายที่ผลิตไว้ล่วงหน้า” Siyuan Huang ร่วม ผู้เขียนบทความอธิบาย

“ด้วยการใช้แผนที่ความคุ้มค่าที่ได้มาจากระยะห่างระหว่างข้อต่อโครงกระดูกมนุษย์และพื้นผิวของฉาก แบบจำลองของเราจึงเชื่อมโยงการกราวด์ฉาก 3 มิติและการสร้างการเคลื่อนไหวตามเงื่อนไขที่มีอยู่ในงานนี้ได้อย่างมีประสิทธิภาพ”

วิธีการที่นำเสนอขั้นแรกจะคาดการณ์แผนผังการจ่ายฉากจากคำอธิบายภาษาโดยใช้แบบจำลองการแพร่กระจายของจ่าย (ADM) จากนั้นจึงสร้างการเคลื่อนไหวแบบโต้ตอบของมนุษย์ด้วยแบบจำลองการแพร่กระจายของความสามารถในการจ่ายต่อการเคลื่อนไหว (AMDM) ซึ่งกำหนดเงื่อนไขบนแผนที่ความสามารถในการจ่ายที่ผลิตไว้ล่วงหน้า เครดิต: วัง และคณะ

กรอบการทำงานใหม่ของทีมมีข้อได้เปรียบที่โดดเด่นหลายประการเหนือแนวทางที่แนะนำก่อนหน้านี้สำหรับการสร้างการเคลื่อนไหวของมนุษย์โดยใช้ภาษานำทาง ประการแรก การนำเสนอต้องอาศัยการระบุขอบเขตที่เกี่ยวข้องกับคำอธิบาย/ข้อความแจ้งของผู้ใช้อย่างชัดเจน ซึ่งช่วยปรับปรุงความสามารถในการต่อสายดินแบบ 3 มิติ ทำให้สามารถสร้างการเคลื่อนไหวที่น่าเชื่อด้วยข้อมูลการฝึกที่จำกัด

“แผนที่ที่ใช้โดยแบบจำลองของเรายังนำเสนอความเข้าใจอย่างลึกซึ้งเกี่ยวกับความสัมพันธ์ทางเรขาคณิตระหว่างฉากและการเคลื่อนไหว ซึ่งช่วยในการสรุปภาพรวมของรูปทรงเรขาคณิตของฉากที่หลากหลาย” Wei Liang ผู้ร่วมเขียนรายงานกล่าว “ผลงานหลักของเราคือการใช้ประโยชน์จากการนำเสนอฉากที่ชัดเจนเพื่ออำนวยความสะดวกในการสร้างภาพเคลื่อนไหวของมนุษย์โดยใช้ภาษาในฉาก 3 มิติ”

การศึกษานี้โดย Zhu และเพื่อนร่วมงานของเขาแสดงให้เห็นถึงศักยภาพของแบบจำลองการสร้างการเคลื่อนไหวตามเงื่อนไขที่รวมความสามารถในการจ่ายฉากและการเป็นตัวแทน ทีมงานหวังว่าโมเดลและแนวทางพื้นฐานของโมเดลจะจุดประกายนวัตกรรมภายในชุมชนการวิจัย AI เชิงสร้างสรรค์

โมเดลใหม่ที่พวกเขาพัฒนาขึ้นนั้นอาจจะได้รับการปรับปรุงให้สมบูรณ์แบบยิ่งขึ้นในไม่ช้า และนำไปใช้กับปัญหาต่างๆ ในโลกแห่งความเป็นจริงได้ ตัวอย่างเช่น สามารถใช้เพื่อสร้างภาพยนตร์แอนิเมชั่นที่สมจริงโดยใช้ AI หรือเพื่อสร้างข้อมูลการฝึกอบรมสังเคราะห์ที่สมจริงสำหรับการใช้งานหุ่นยนต์

“การวิจัยในอนาคตของเราจะมุ่งเน้นไปที่การจัดการกับการขาดแคลนข้อมูลผ่านกลยุทธ์การรวบรวมและคำอธิบายประกอบที่ได้รับการปรับปรุงสำหรับข้อมูลปฏิสัมพันธ์ระหว่างมนุษย์กับฉาก” Zhu กล่าวเสริม "เรายังจะปรับปรุงประสิทธิภาพการอนุมานของแบบจำลองการแพร่กระจายของเราเพื่อสนับสนุนการนำไปประยุกต์ใช้ในทางปฏิบัติ"