Een nieuw raamwerk om menselijke bewegingen te genereren op basis van taalprompts

Het gebruik van scèneaffordantie als tussenrepresentatie verbetert de bewegingsgeneratiemogelijkheden op benchmarks (a) HumanML3D en (b) HUMANISE, en vergroot aanzienlijk het vermogen van het model om te generaliseren naar (c) onzichtbare scenario's. Krediet: Wang et al.

Op machine learning gebaseerde modellen die autonoom verschillende soorten inhoud kunnen genereren, zijn de afgelopen jaren steeds geavanceerder geworden. Deze raamwerken hebben nieuwe mogelijkheden geopend voor het maken van films en voor het samenstellen van datasets om robotica-algoritmen te trainen.

Hoewel sommige bestaande modellen realistische of artistieke afbeeldingen kunnen genereren op basis van tekstbeschrijvingen, is het ontwikkelen van AI die video's van bewegende menselijke figuren kan genereren op basis van menselijke instructies tot nu toe een grotere uitdaging gebleken. In een artikel dat vooraf op de server is gepubliceerd arXiv en gepresenteerd op de IEEE/CVF Conference on Computer Vision and Pattern Recognition 2024, onderzoekers van het Beijing Institute of TechnologieBIGAI en de Universiteit van Peking introduceren een veelbelovend nieuw raamwerk dat deze taak effectief kan aanpakken.

“Eerste experimenten in ons vorige werk, HUMANIZE, gaven aan dat een raamwerk in twee fasen de taalgestuurde generatie van menselijke bewegingen in 3D-scènes zou kunnen verbeteren, door de taak op te splitsen in het aarden van scènes en het genereren van voorwaardelijke bewegingen”, zegt Yixin Zhu, co-auteur van het boek. papier, vertelde Tech Xplore.

"Sommige werken op het gebied van robotica hebben ook de positieve impact van betaalbaarheid op het generalisatievermogen van het model aangetoond, wat ons inspireert om scèneaffordantie te gebruiken als tussenrepresentatie voor deze complexe taak."

Het nieuwe raamwerk dat Zhu en zijn collega's introduceerden, bouwt voort op een generatief model dat ze een paar jaar geleden introduceerden, genaamd HUMANIZE. De onderzoekers wilden het vermogen van dit model om goed te generaliseren over nieuwe problemen verbeteren, bijvoorbeeld door realistische bewegingen te creëren als reactie op de opdracht 'ga op de vloer liggen', nadat ze hadden geleerd hoe ze effectief een beweging 'liggen op bed' konden genereren.

“Onze methode ontvouwt zich in twee fasen: een Affordance Diffusion Model (ADM) voor het voorspellen van de betaalbaarheidskaarten en een Affordance-to-Motion Diffusion Model (AMDM) voor het genereren van menselijke beweging op basis van de beschrijving en vooraf geproduceerde betaalbaarheid,” zegt Siyuan Huang, co- auteur van het artikel, uitgelegd.

"Door gebruik te maken van kaarten voor de betaalbaarheid die zijn afgeleid van het afstandsveld tussen menselijke skeletgewrichten en scène-oppervlakken, koppelt ons model effectief 3D-scène-aarding en voorwaardelijke bewegingsgeneratie die inherent is aan deze taak."

De voorgestelde methode voorspelt eerst de scèneaffordantiekaart op basis van de taalbeschrijving met behulp van het Affordance Diffusion Model (ADM) en genereert vervolgens interactieve menselijke bewegingen met het Affordance-to-Motion Diffusion Model (AMDM), geconditioneerd op de vooraf geproduceerde betaalbaarheidskaart. Krediet: Wang et al.

Het nieuwe raamwerk van het team heeft verschillende opmerkelijke voordelen ten opzichte van eerder geïntroduceerde benaderingen voor het genereren van taalgestuurde menselijke bewegingen. Ten eerste geven de representaties waarop het vertrouwt duidelijk de regio af die geassocieerd is met de beschrijvingen/prompts van een gebruiker. Dit verbetert de 3D-aardingsmogelijkheden, waardoor het overtuigende bewegingen kan creëren met beperkte trainingsgegevens.

"De kaarten die door ons model worden gebruikt, bieden ook een diep inzicht in de geometrische wisselwerking tussen scènes en bewegingen, wat de generalisatie ervan over verschillende scènegeometrieën bevordert", zegt Wei Liang, co-auteur van het artikel. “De belangrijkste bijdrage van ons werk ligt in het benutten van expliciete scène-affordance-representatie om taalgestuurde menselijke bewegingsgeneratie in 3D-scènes te vergemakkelijken.”

Deze studie door Zhu en zijn collega's demonstreert het potentieel van modellen voor het genereren van voorwaardelijke bewegingen die scèneaffordances en representaties integreren. Het team hoopt dat hun model en de onderliggende aanpak innovatie zullen stimuleren binnen de generatieve AI-onderzoeksgemeenschap.

Het nieuwe model dat ze ontwikkelden, kon binnenkort verder worden geperfectioneerd en toegepast op verschillende problemen in de echte wereld. Het zou bijvoorbeeld kunnen worden gebruikt om realistische animatiefilms te produceren met behulp van AI of om realistische synthetische trainingsgegevens voor robotica-toepassingen te genereren.

“Ons toekomstige onderzoek zal zich richten op het aanpakken van dataschaarste door verbeterde verzamel- en annotatiestrategieën voor interactiegegevens tussen mens en scène,” voegde Zhu eraan toe. “We zullen ook de inferentie-efficiëntie van ons diffusiemodel verbeteren om de praktische toepasbaarheid ervan te vergroten.”