Un nuovo framework per generare movimenti umani da suggerimenti linguistici

Aggiornamento: 24 aprile 2024
Un nuovo framework per generare movimenti umani da suggerimenti linguistici
L'utilizzo dell'affordance della scena come rappresentazione intermedia migliora le capacità di generazione del movimento sui benchmark (a) HumanML3D e (b) HUMANISE e aumenta significativamente la capacità del modello di generalizzare a (c) scenari invisibili. Credito: Wang et al.

Negli ultimi anni sono diventati sempre più avanzati modelli basati sul machine learning in grado di generare autonomamente diverse tipologie di contenuti. Questi quadri hanno aperto nuove possibilità per la produzione cinematografica e per la compilazione di set di dati per addestrare algoritmi di robotica.


Mentre alcuni modelli esistenti possono generare immagini realistiche o artistiche basate su descrizioni testuali, lo sviluppo di un’intelligenza artificiale in grado di generare video di figure umane in movimento sulla base di istruzioni umane si è finora rivelato più impegnativo. In un documento pre-pubblicato sul server arXiv e presentato alla conferenza IEEE/CVF su Computer Vision and Pattern Recognition 2024, ricercatori del Beijing Institute of Tecnologia, BIGAI e l'Università di Pechino introducono un nuovo promettente quadro in grado di affrontare efficacemente questo compito.

“I primi esperimenti nel nostro lavoro precedente, HUMANIZE, indicavano che una struttura a due fasi potrebbe migliorare la generazione di movimento umano guidata dal linguaggio nelle scene 3D, scomponendo il compito in radicamento della scena e generazione di movimento condizionale”, Yixin Zhu, coautore dello studio. carta, ha detto a Tech Xplore.

"Alcuni lavori nel campo della robotica hanno anche dimostrato l'impatto positivo dell'affordance sulla capacità di generalizzazione del modello, il che ci ispira a utilizzare l'affordance della scena come rappresentazione intermedia per questo compito complesso."

Il nuovo framework introdotto da Zhu e dai suoi colleghi si basa su un modello generativo introdotto alcuni anni fa, chiamato HUMANIZE. I ricercatori si sono proposti di migliorare la capacità di questo modello di generalizzare bene a nuovi problemi, ad esempio creando movimenti realistici in risposta al suggerimento di "sdraiarsi sul pavimento", dopo aver imparato a generare in modo efficace un movimento di "sdraiarsi sul letto".

“Il nostro metodo si sviluppa in due fasi: un modello di diffusione dell’affordance (ADM) per la previsione della mappa di affordance e un modello di diffusione dell’affordance-to-motion (AMDM) per generare il movimento umano dalla descrizione e dall’affordance pre-prodotta”, ha affermato Siyuan Huang, co- autore dell'articolo, ha spiegato.

“Utilizzando mappe di affordance derivate dal campo di distanza tra le articolazioni dello scheletro umano e le superfici della scena, il nostro modello collega efficacemente la messa a terra della scena 3D e la generazione di movimento condizionale inerente a questo compito”.

Il metodo proposto prevede innanzitutto la mappa di affordance della scena dalla descrizione del linguaggio utilizzando l'Affordance Diffusion Model (ADM) e quindi genera movimenti umani interattivi con l'Affordance-to-Motion Diffusion Model (AMDM) condizionato sulla mappa di affordance pre-prodotta. Credito: Wang et al.

Il nuovo quadro del team presenta diversi notevoli vantaggi rispetto agli approcci precedentemente introdotti per la generazione del movimento umano guidato dal linguaggio. Innanzitutto, le rappresentazioni su cui si basa delineano chiaramente la regione associata alle descrizioni/prompt di un utente. Ciò migliora le sue capacità di radicamento 3D, consentendogli di creare movimenti convincenti con dati di allenamento limitati.

"Le mappe utilizzate dal nostro modello offrono anche una profonda comprensione dell'interazione geometrica tra scene e movimenti, aiutando la sua generalizzazione attraverso diverse geometrie di scene", ha affermato Wei Liang, coautore dell'articolo. “Il contributo chiave del nostro lavoro sta nello sfruttare la rappresentazione esplicita dell’affordance della scena per facilitare la generazione del movimento umano guidato dal linguaggio nelle scene 3D”.

Questo studio di Zhu e dei suoi colleghi dimostra il potenziale dei modelli di generazione del movimento condizionale che integrano le offerte e le rappresentazioni della scena. Il team spera che il loro modello e il suo approccio sottostante stimoleranno l’innovazione all’interno della comunità di ricerca sull’intelligenza artificiale generativa.

Il nuovo modello sviluppato potrebbe presto essere ulteriormente perfezionato e applicato a vari problemi del mondo reale. Ad esempio, potrebbe essere utilizzato per produrre film animati realistici utilizzando l’intelligenza artificiale o per generare dati di addestramento sintetici realistici per applicazioni di robotica.

“La nostra ricerca futura si concentrerà sull’affrontare la scarsità di dati attraverso strategie di raccolta e annotazione migliorate per i dati di interazione tra uomo e scena”, ha aggiunto Zhu. “Miglioreremo anche l’efficienza di inferenza del nostro modello di diffusione per rafforzarne l’applicabilità pratica”.