إطار جديد لتوليد الحركات البشرية من المطالبات اللغوية

التحديث: 24 أبريل 2024
إطار جديد لتوليد الحركات البشرية من المطالبات اللغوية
يؤدي استخدام القدرة على تحمل تكاليف المشهد كتمثيل وسيط إلى تعزيز قدرات توليد الحركة على المعايير (أ) HumanML3D و(ب) الإنسانية، ويعزز بشكل كبير قدرة النموذج على التعميم على (ج) السيناريوهات غير المرئية. الائتمان: وانغ وآخرون.

أصبحت النماذج القائمة على التعلم الآلي والتي يمكنها إنشاء أنواع مختلفة من المحتوى بشكل مستقل متقدمة بشكل متزايد خلال السنوات القليلة الماضية. لقد فتحت هذه الأطر إمكانيات جديدة لصناعة الأفلام وتجميع مجموعات البيانات لتدريب خوارزميات الروبوتات.


في حين أن بعض النماذج الحالية يمكنها توليد صور واقعية أو فنية بناءً على أوصاف نصية، فإن تطوير الذكاء الاصطناعي الذي يمكنه إنشاء مقاطع فيديو لشخصيات بشرية متحركة بناءً على تعليمات بشرية أثبت حتى الآن أنه أكثر صعوبة. في ورقة منشورة مسبقا على الخادم arXiv وتم تقديمه في مؤتمر IEEE/CVF حول الرؤية الحاسوبية والتعرف على الأنماط 2024، باحثون في معهد بكين تكنولوجياتقدم BIGAI وجامعة بكين إطارًا جديدًا واعدًا يمكنه معالجة هذه المهمة بفعالية.

"أشارت التجارب المبكرة في عملنا السابق، HUMANIZE، إلى أن إطار العمل المكون من مرحلتين يمكن أن يعزز توليد الحركة البشرية الموجهة باللغة في المشاهد ثلاثية الأبعاد، من خلال تحليل المهمة إلى تأريض المشهد وتوليد الحركة المشروطة،" ييشين تشو، المؤلف المشارك لـ ورقة، قال لـ Tech Xplore.

"لقد أظهرت بعض الأعمال في مجال الروبوتات أيضًا التأثير الإيجابي للقدرة على تعميم النموذج، مما يلهمنا لتوظيف القدرة على تحمل التكاليف كتمثيل وسيط لهذه المهمة المعقدة."

يعتمد الإطار الجديد الذي قدمه تشو وزملاؤه على نموذج توليدي قدموه قبل بضع سنوات، يسمى HUMANIZE. وقد شرع الباحثون في تحسين قدرة هذا النموذج على التعميم بشكل جيد عبر المشكلات الجديدة، على سبيل المثال إنشاء حركات واقعية استجابة لأمر "الاستلقاء على الأرض"، بعد تعلم كيفية توليد حركة "الاستلقاء على السرير" بشكل فعال.

"تتكشف طريقتنا على مرحلتين: نموذج نشر القدرة على التحمل (ADM) للتنبؤ بخريطة القدرة على التحمل ونموذج نشر القدرة على الحركة (AMDM) لتوليد حركة بشرية من الوصف والقدرة المنتجة مسبقًا،" سيوان هوانغ، المشارك في الدراسة. وأوضح مؤلف الورقة.

"من خلال استخدام خرائط القدرة المستمدة من مجال المسافة بين مفاصل الهيكل العظمي البشري وأسطح المشهد، يربط نموذجنا بشكل فعال بين أسس المشهد ثلاثي الأبعاد وتوليد الحركة المشروطة المتأصلة في هذه المهمة."

تتنبأ الطريقة المقترحة أولاً بخريطة إتاحة المشهد من وصف اللغة باستخدام نموذج نشر القدرة على الحركة (ADM) ثم تقوم بإنشاء حركات بشرية تفاعلية باستخدام نموذج نشر القدرة على الحركة (AMDM) المشروط بخريطة القدرة المنتجة مسبقًا. الائتمان: وانغ وآخرون.

يتمتع الإطار الجديد للفريق بمزايا ملحوظة مختلفة مقارنة بالأساليب التي تم تقديمها مسبقًا لتوليد الحركة البشرية الموجهة باللغة. أولاً، تحدد التمثيلات التي تعتمد عليها بوضوح المنطقة المرتبطة بأوصاف/مطالبات المستخدم. يؤدي ذلك إلى تحسين قدرات التأريض ثلاثية الأبعاد، مما يسمح له بإنشاء حركات مقنعة ببيانات تدريب محدودة.

وقال وي ليانغ، المؤلف المشارك في الدراسة: "إن الخرائط التي يستخدمها نموذجنا تقدم أيضًا فهمًا عميقًا للتفاعل الهندسي بين المشاهد والحركات، مما يساعد على تعميمه عبر هندسة المشاهد المتنوعة". "تكمن المساهمة الرئيسية لعملنا في الاستفادة من التمثيل الواضح لتحمل تكاليف المشهد لتسهيل توليد الحركة البشرية الموجهة باللغة في المشاهد ثلاثية الأبعاد."

توضح هذه الدراسة التي أجراها تشو وزملاؤه إمكانات نماذج توليد الحركة المشروطة التي تدمج إمكانيات المشهد وتمثيلاته. ويأمل الفريق أن يؤدي نموذجهم ونهجه الأساسي إلى إثارة الابتكار داخل مجتمع أبحاث الذكاء الاصطناعي التوليدي.

يمكن قريبًا تحسين النموذج الجديد الذي طوروه وتطبيقه على العديد من مشكلات العالم الحقيقي. على سبيل المثال، يمكن استخدامه لإنتاج أفلام رسوم متحركة واقعية باستخدام الذكاء الاصطناعي أو لتوليد بيانات تدريب تركيبية واقعية لتطبيقات الروبوتات.

وأضاف تشو: "سوف يركز بحثنا المستقبلي على معالجة ندرة البيانات من خلال تحسين استراتيجيات التجميع والتعليق لبيانات التفاعل بين المشهد البشري". "سنقوم أيضًا بتعزيز كفاءة الاستدلال لنموذج الانتشار الخاص بنا لتعزيز إمكانية تطبيقه العملي."