מסגרת חדשה ליצירת תנועות אנושיות מהנחיות שפה

שימוש בסצנה כייצוג ביניים משפר את יכולות יצירת התנועה על אמות מידה (א) HumanML3D ו-(ב) HUMANISE, ומגביר משמעותית את יכולת המודל להכליל ל-(ג) תרחישים בלתי נראים. קרדיט: Wang et al.

מודלים מבוססי למידת מכונה שיכולים ליצור באופן אוטונומי סוגים שונים של תוכן הפכו מתקדמים יותר ויותר במהלך השנים האחרונות. מסגרות אלו פתחו אפשרויות חדשות ליצירת סרטים ולהרכבת מערכי נתונים להכשרת אלגוריתמים רובוטיים.

בעוד שדגמים קיימים מסוימים יכולים ליצור תמונות ריאליסטיות או אמנותיות על סמך תיאורי טקסט, פיתוח בינה מלאכותית שיכולה ליצור סרטונים של דמויות אנושיות נעות על סמך הוראות אנושיות הוכיחה את עצמה עד כה כמאתגרת יותר. במאמר שפורסם מראש בשרת arXiv והוצג בכנס IEEE/CVF בנושא ראייה ממוחשבת וזיהוי דפוסים 2024, חוקרים ממכון בייג'ינג של טכנולוגיה, BIGAI ואוניברסיטת פקין מציגות מסגרת חדשה ומבטיחה שיכולה להתמודד ביעילות עם משימה זו.

"ניסויים מוקדמים בעבודתנו הקודמת, HUMANIZE, הצביעו על כך שמסגרת דו-שלבית יכולה לשפר יצירת תנועה אנושית מונחית שפה בסצינות תלת-ממדיות, על ידי פירוק המשימה לקרקע של סצינה ויצירת תנועה מותנית," Yixin Zhu, מחבר שותף ב- נייר, אמר ל-Tech Xplore.

"חלק מהעבודות ברובוטיקה גם הוכיחו את ההשפעה החיובית של מימון על יכולת ההכללה של המודל, מה שמעורר בנו השראה להשתמש בהנחה לסצינה כייצוג ביניים למשימה מורכבת זו."

המסגרת החדשה שהציגו Zhu ועמיתיו מתבססת על מודל מחולל שהציגו לפני מספר שנים, הנקרא HUMANIZE. החוקרים התכוונו לשפר את יכולתו של מודל זה להכליל היטב על פני בעיות חדשות, למשל יצירת תנועות מציאותיות בתגובה להנחיה "לשכב על הרצפה", לאחר שלמדו ליצור ביעילות תנועת "שכב על המיטה".

"השיטה שלנו מתפתחת בשני שלבים: מודל אפורמציה (ADM) לחיזוי מפת תגמול ומודל דיפוזיה של תזמון לתנועה (AMDM) ליצירת תנועה אנושית מהתיאור ומהאפשרות שהופקה מראש", סייואן הואנג, שותף ב- מחבר המאמר, הסביר.

"על ידי ניצול מפות אפורמציה הנגזרות משדה המרחק בין מפרקי שלד אנושי ומשטחי סצנה, המודל שלנו מקשר ביעילות הארקה של סצנה תלת מימדית ויצירת תנועה מותנית הטבועה במשימה זו."

השיטה המוצעת חוזה תחילה את מפת הסצנה מתיאור השפה באמצעות מודל אפורדנס דיפוזיה (ADM) ולאחר מכן מייצרת תנועות אנושיות אינטראקטיביות עם מודל אפורמציה לתנועה (AMDM) המותנה על מפת האפורמציה המיוצרת מראש. קרדיט: Wang et al.

למסגרת החדשה של הצוות יש יתרונות בולטים שונים על פני גישות שהוצגו בעבר ליצירת תנועה אנושית מונחית שפה. ראשית, הייצוגים שהוא מסתמך עליהם משרטטים בבירור את האזור המשויך לתיאורים/הנחיות של משתמש. זה משפר את יכולות הארקה התלת-ממדיות שלו, ומאפשר לו ליצור תנועות משכנעות עם נתוני אימון מוגבלים.

"המפות המשמשות את המודל שלנו מציעות גם הבנה עמוקה של משחק הגומלין הגיאומטרי בין סצנות ותנועות, ומסייעות להכללה על פני גיאומטריות סצנות מגוונות", אמר ווי ליאנג, מחבר המשותף של המאמר. "התרומה המרכזית של העבודה שלנו טמונה במינוף ייצוג מפורש של סצנה מפורשת כדי להקל על יצירת תנועה אנושית מונחית שפה בסצנות תלת מימד."

מחקר זה של ז'ו ועמיתיו מדגים את הפוטנציאל של מודלים ליצירת תנועה מותנית המשלבים הסצנה וייצוגים. הצוות מקווה שהמודל שלהם והגישה הבסיסית שלו יעוררו חדשנות בתוך קהילת המחקר הגנרטיבית של AI.

המודל החדש שהם פיתחו יוכל להשתכלל בקרוב וליישם על בעיות שונות בעולם האמיתי. לדוגמה, זה יכול לשמש להפקת סרטי אנימציה מציאותיים באמצעות AI או ליצור נתוני אימון סינתטיים ריאליסטיים עבור יישומי רובוטיקה.

"המחקר העתידי שלנו יתמקד בטיפול במחסור בנתונים באמצעות אסטרטגיות משופרות של איסוף והערות עבור נתוני אינטראקציה בין בני אדם", הוסיף ג'ו. "אנחנו גם נשפר את יעילות ההסקת של מודל הדיפוזיה שלנו כדי לחזק את הישימות המעשית שלו."