Un nouveau cadre pour générer des mouvements humains à partir d'invites linguistiques

L'utilisation de l'affordance de la scène comme représentation intermédiaire améliore les capacités de génération de mouvement sur les références (a) HumanML3D et (b) HUMANISE, et augmente considérablement la capacité du modèle à généraliser à (c) des scénarios invisibles. Crédit : Wang et al.

Les modèles basés sur l’apprentissage automatique, capables de générer de manière autonome différents types de contenu, sont devenus de plus en plus avancés au cours des dernières années. Ces cadres ont ouvert de nouvelles possibilités pour la réalisation de films et pour la compilation d'ensembles de données pour entraîner des algorithmes robotiques.

Alors que certains modèles existants peuvent générer des images réalistes ou artistiques basées sur des descriptions textuelles, le développement d’une IA capable de générer des vidéos de figures humaines en mouvement basées sur des instructions humaines s’est jusqu’à présent révélé plus difficile. Dans un article pré-publié sur le serveur arXiv et présenté à la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes 2024, des chercheurs de l'Institut de Pékin Technologie, BIGAI et l'Université de Pékin présentent un nouveau cadre prometteur capable de s'attaquer efficacement à cette tâche.

"Les premières expériences de notre travail précédent, HUMANIZE, ont indiqué qu'un cadre en deux étapes pourrait améliorer la génération de mouvements humains guidée par le langage dans les scènes 3D, en décomposant la tâche en mise à la terre de la scène et génération de mouvements conditionnels", Yixin Zhu, co-auteur de l'ouvrage. papier, a déclaré à Tech Xplore.

"Certains travaux en robotique ont également démontré l'impact positif de l'affordance sur la capacité de généralisation du modèle, ce qui nous incite à utiliser l'affordance de la scène comme représentation intermédiaire pour cette tâche complexe."

Le nouveau cadre introduit par Zhu et ses collègues s'appuie sur un modèle génératif qu'ils ont introduit il y a quelques années, appelé HUMANIZE. Les chercheurs ont cherché à améliorer la capacité de ce modèle à se généraliser à de nouveaux problèmes, par exemple en créant des mouvements réalistes en réponse à l'invite « s'allonger sur le sol », après avoir appris à générer efficacement un mouvement « s'allonger sur le lit ».

"Notre méthode se déroule en deux étapes : un modèle de diffusion d'affordance (ADM) pour la prédiction de la carte d'affordance et un modèle de diffusion d'affordance-to-motion (AMDM) pour générer le mouvement humain à partir de la description et de l'affordance pré-produite", Siyuan Huang, co- auteur de l'article, a expliqué.

"En utilisant des cartes d'affordance dérivées du champ de distance entre les articulations du squelette humain et les surfaces de la scène, notre modèle relie efficacement la mise à la terre de la scène 3D et la génération de mouvement conditionnel inhérente à cette tâche."

La méthode proposée prédit d'abord la carte d'affordance de la scène à partir de la description du langage à l'aide du modèle de diffusion d'affordance (ADM), puis génère des mouvements humains interactifs avec le modèle de diffusion d'affordance à mouvement (AMDM) conditionnés sur la carte d'affordance pré-produite. Crédit : Wang et al.

Le nouveau cadre de l'équipe présente divers avantages notables par rapport aux approches précédemment introduites pour la génération de mouvements humains guidée par le langage. Premièrement, les représentations sur lesquelles il s'appuie délimitent clairement la région associée aux descriptions/invites d'un utilisateur. Cela améliore ses capacités de mise à la terre 3D, lui permettant de créer des mouvements convaincants avec des données d'entraînement limitées.

"Les cartes utilisées par notre modèle offrent également une compréhension approfondie de l'interaction géométrique entre les scènes et les mouvements, facilitant sa généralisation à travers diverses géométries de scènes", a déclaré Wei Liang, co-auteur de l'article. "La principale contribution de notre travail réside dans l'exploitation de la représentation explicite des possibilités de scène pour faciliter la génération de mouvements humains guidée par le langage dans les scènes 3D."

Cette étude réalisée par Zhu et ses collègues démontre le potentiel des modèles de génération de mouvement conditionnels qui intègrent les possibilités et les représentations de la scène. L’équipe espère que leur modèle et son approche sous-jacente susciteront l’innovation au sein de la communauté de recherche sur l’IA générative.

Le nouveau modèle qu’ils ont développé pourrait bientôt être perfectionné et appliqué à divers problèmes du monde réel. Par exemple, il pourrait être utilisé pour produire des films d’animation réalistes à l’aide de l’IA ou pour générer des données d’entraînement synthétiques réalistes pour des applications robotiques.

"Nos recherches futures se concentreront sur la lutte contre la rareté des données grâce à des stratégies améliorées de collecte et d'annotation des données d'interaction homme-scène", a ajouté Zhu. "Nous améliorerons également l'efficacité d'inférence de notre modèle de diffusion pour renforcer son applicabilité pratique."