โมเดลที่ใช้การเรียนรู้ของเครื่องซึ่งสามารถสร้างเนื้อหาประเภทต่างๆ ได้โดยอัตโนมัตินั้นมีความก้าวหน้ามากขึ้นในช่วงไม่กี่ปีที่ผ่านมา เฟรมเวิร์กเหล่านี้ได้เปิดโอกาสใหม่ๆ สำหรับการสร้างภาพยนตร์และการรวบรวมชุดข้อมูลเพื่อฝึกอัลกอริธึมหุ่นยนต์
แม้ว่าโมเดลที่มีอยู่บางรุ่นจะสามารถสร้างภาพที่สมจริงหรือเป็นงานศิลปะตามคำอธิบายข้อความได้ แต่การพัฒนา AI ที่สามารถสร้างวิดีโอของร่างมนุษย์ที่เคลื่อนไหวตามคำสั่งของมนุษย์นั้น ได้รับการพิสูจน์แล้วว่ามีความท้าทายมากขึ้น ในบทความที่ตีพิมพ์ล่วงหน้าบนเซิร์ฟเวอร์ arXiv และนำเสนอในการประชุม IEEE/CVF เรื่อง Computer Vision and Pattern Recognition 2024 นักวิจัยจาก Beijing Institute of เทคโนโลยี, BIGAI และมหาวิทยาลัยปักกิ่งนำเสนอกรอบการทำงานใหม่ที่มีแนวโน้มดีซึ่งสามารถรับมือกับงานนี้ได้อย่างมีประสิทธิภาพ
“การทดลองในช่วงแรกๆ ในงานก่อนหน้าของเรา HUMANIZE ระบุว่ากรอบงานสองขั้นตอนสามารถปรับปรุงการสร้างการเคลื่อนไหวของมนุษย์โดยใช้ภาษานำทางในฉาก 3 มิติ โดยการแบ่งงานออกเป็นการสร้างฉากกราวด์และการสร้างการเคลื่อนไหวแบบมีเงื่อนไข” Yixin Zhu ผู้เขียนร่วมของ กระดาษบอกกับ Tech Xplore
“งานด้านวิทยาการหุ่นยนต์บางชิ้นยังแสดงให้เห็นถึงผลกระทบเชิงบวกของความสามารถในการจ่ายต่อความสามารถในการวางภาพรวมของโมเดล ซึ่งเป็นแรงบันดาลใจให้เราใช้การจ่ายฉากเป็นการนำเสนอระดับกลางสำหรับงานที่ซับซ้อนนี้”
กรอบการทำงานใหม่ที่นำเสนอโดย Zhu และเพื่อนร่วมงานของเขาสร้างขึ้นจากโมเดลเชิงกำเนิดที่พวกเขาแนะนำเมื่อไม่กี่ปีก่อนที่เรียกว่า HUMANIZE นักวิจัยตั้งเป้าหมายที่จะปรับปรุงความสามารถของโมเดลนี้ในการสรุปปัญหาใหม่ๆ ได้ดี เช่น การสร้างการเคลื่อนไหวที่สมจริงเพื่อตอบสนองต่อการแจ้งเตือน "นอนราบกับพื้น" หลังจากเรียนรู้ที่จะสร้างการเคลื่อนไหว "นอนบนเตียง" อย่างมีประสิทธิภาพ
“วิธีการของเราแบ่งออกเป็นสองขั้นตอน ได้แก่ Affordance Diffusion Model (ADM) สำหรับการทำนายแผนที่ความจ่าย และ Affordance-to-Motion Diffusion Model (AMDM) เพื่อสร้างการเคลื่อนไหวของมนุษย์จากคำอธิบายและความจ่ายที่ผลิตไว้ล่วงหน้า” Siyuan Huang ร่วม ผู้เขียนบทความอธิบาย
“ด้วยการใช้แผนที่ความคุ้มค่าที่ได้มาจากระยะห่างระหว่างข้อต่อโครงกระดูกมนุษย์และพื้นผิวของฉาก แบบจำลองของเราจึงเชื่อมโยงการกราวด์ฉาก 3 มิติและการสร้างการเคลื่อนไหวตามเงื่อนไขที่มีอยู่ในงานนี้ได้อย่างมีประสิทธิภาพ”
กรอบการทำงานใหม่ของทีมมีข้อได้เปรียบที่โดดเด่นหลายประการเหนือแนวทางที่แนะนำก่อนหน้านี้สำหรับการสร้างการเคลื่อนไหวของมนุษย์โดยใช้ภาษานำทาง ประการแรก การนำเสนอต้องอาศัยการระบุขอบเขตที่เกี่ยวข้องกับคำอธิบาย/ข้อความแจ้งของผู้ใช้อย่างชัดเจน ซึ่งช่วยปรับปรุงความสามารถในการต่อสายดินแบบ 3 มิติ ทำให้สามารถสร้างการเคลื่อนไหวที่น่าเชื่อด้วยข้อมูลการฝึกที่จำกัด
“แผนที่ที่ใช้โดยแบบจำลองของเรายังนำเสนอความเข้าใจอย่างลึกซึ้งเกี่ยวกับความสัมพันธ์ทางเรขาคณิตระหว่างฉากและการเคลื่อนไหว ซึ่งช่วยในการสรุปภาพรวมของรูปทรงเรขาคณิตของฉากที่หลากหลาย” Wei Liang ผู้ร่วมเขียนรายงานกล่าว “ผลงานหลักของเราคือการใช้ประโยชน์จากการนำเสนอฉากที่ชัดเจนเพื่ออำนวยความสะดวกในการสร้างภาพเคลื่อนไหวของมนุษย์โดยใช้ภาษาในฉาก 3 มิติ”
การศึกษานี้โดย Zhu และเพื่อนร่วมงานของเขาแสดงให้เห็นถึงศักยภาพของแบบจำลองการสร้างการเคลื่อนไหวตามเงื่อนไขที่รวมความสามารถในการจ่ายฉากและการเป็นตัวแทน ทีมงานหวังว่าโมเดลและแนวทางพื้นฐานของโมเดลจะจุดประกายนวัตกรรมภายในชุมชนการวิจัย AI เชิงสร้างสรรค์
โมเดลใหม่ที่พวกเขาพัฒนาขึ้นนั้นอาจจะได้รับการปรับปรุงให้สมบูรณ์แบบยิ่งขึ้นในไม่ช้า และนำไปใช้กับปัญหาต่างๆ ในโลกแห่งความเป็นจริงได้ ตัวอย่างเช่น สามารถใช้เพื่อสร้างภาพยนตร์แอนิเมชั่นที่สมจริงโดยใช้ AI หรือเพื่อสร้างข้อมูลการฝึกอบรมสังเคราะห์ที่สมจริงสำหรับการใช้งานหุ่นยนต์
“การวิจัยในอนาคตของเราจะมุ่งเน้นไปที่การจัดการกับการขาดแคลนข้อมูลผ่านกลยุทธ์การรวบรวมและคำอธิบายประกอบที่ได้รับการปรับปรุงสำหรับข้อมูลปฏิสัมพันธ์ระหว่างมนุษย์กับฉาก” Zhu กล่าวเสริม "เรายังจะปรับปรุงประสิทธิภาพการอนุมานของแบบจำลองการแพร่กระจายของเราเพื่อสนับสนุนการนำไปประยุกต์ใช้ในทางปฏิบัติ"