Un nuevo marco para generar movimientos humanos a partir de indicaciones del lenguaje

El uso de posibilidades de escena como representación intermedia mejora las capacidades de generación de movimiento en los puntos de referencia (a) HumanML3D y (b) HUMANISE, y aumenta significativamente la capacidad del modelo para generalizar a (c) escenarios invisibles. Crédito: Wang et al.

Los modelos basados en aprendizaje automático que pueden generar de forma autónoma varios tipos de contenido se han vuelto cada vez más avanzados en los últimos años. Estos marcos han abierto nuevas posibilidades para la realización de películas y la compilación de conjuntos de datos para entrenar algoritmos robóticos.

Si bien algunos modelos existentes pueden generar imágenes realistas o artísticas basadas en descripciones de texto, hasta ahora ha resultado más difícil desarrollar una IA que pueda generar vídeos de figuras humanas en movimiento basándose en instrucciones humanas. En un artículo prepublicado en el servidor. arXiv y presentado en la Conferencia IEEE/CVF sobre Visión por Computadora y Reconocimiento de Patrones 2024, investigadores del Instituto de Beijing Tecnología, BIGAI y la Universidad de Pekín presentan un nuevo marco prometedor que puede abordar eficazmente esta tarea.

"Los primeros experimentos de nuestro trabajo anterior, HUMANIZE, indicaron que un marco de dos etapas podría mejorar la generación de movimiento humano guiada por el lenguaje en escenas 3D, al descomponer la tarea en puesta a tierra de la escena y generación de movimiento condicional", dijo Yixin Zhu, coautor del artículo. papel, dijo a Tech Xplore.

"Algunos trabajos en robótica también han demostrado el impacto positivo de la capacidad de generalización del modelo, lo que nos inspira a emplear la capacidad de escena como una representación intermedia para esta compleja tarea".

El nuevo marco introducido por Zhu y sus colegas se basa en un modelo generativo que introdujeron hace unos años, llamado HUMANIZE. Los investigadores se propusieron mejorar la capacidad de este modelo para generalizar bien a nuevos problemas, por ejemplo, creando movimientos realistas en respuesta al mensaje "acuéstate en el suelo", después de aprender a generar eficazmente un movimiento de "acuéstate en la cama".

"Nuestro método se desarrolla en dos etapas: un modelo de difusión de asequibilidad (ADM) para la predicción del mapa de asequibilidad y un modelo de difusión de asequibilidad al movimiento (AMDM) para generar movimiento humano a partir de la descripción y la asequibilidad preproducida", dijo Siyuan Huang, co- autor del artículo, explicó.

"Al utilizar mapas de posibilidades derivados del campo de distancia entre las articulaciones del esqueleto humano y las superficies de la escena, nuestro modelo vincula efectivamente la puesta a tierra de la escena 3D y la generación de movimiento condicional inherente a esta tarea".

El método propuesto primero predice el mapa de disponibilidad de la escena a partir de la descripción del lenguaje utilizando el modelo de difusión de accesibilidad (ADM) y luego genera movimientos humanos interactivos con el modelo de difusión de accesibilidad al movimiento (AMDM) condicionado al mapa de accesibilidad preproducido. Crédito: Wang et al.

El nuevo marco del equipo tiene varias ventajas notables sobre los enfoques introducidos anteriormente para la generación de movimiento humano guiada por el lenguaje. Primero, las representaciones en las que se basa delinean claramente la región asociada con las descripciones/indicaciones de un usuario. Esto mejora sus capacidades de puesta a tierra en 3D, permitiéndole crear movimientos convincentes con datos de entrenamiento limitados.

"Los mapas utilizados por nuestro modelo también ofrecen una comprensión profunda de la interacción geométrica entre escenas y movimientos, ayudando a su generalización en diversas geometrías de escenas", dijo Wei Liang, coautor del artículo. "La contribución clave de nuestro trabajo radica en aprovechar la representación explícita de las posibilidades de la escena para facilitar la generación de movimiento humano guiada por el lenguaje en escenas 3D".

Este estudio de Zhu y sus colegas demuestra el potencial de los modelos de generación de movimiento condicional que integran representaciones y posibilidades de escena. El equipo espera que su modelo y su enfoque subyacente generen innovación dentro de la comunidad de investigación de IA generativa.

El nuevo modelo que desarrollaron pronto podría perfeccionarse aún más y aplicarse a diversos problemas del mundo real. Por ejemplo, podría utilizarse para producir películas animadas realistas utilizando IA o para generar datos de entrenamiento sintéticos realistas para aplicaciones de robótica.

"Nuestra investigación futura se centrará en abordar la escasez de datos mediante estrategias mejoradas de recopilación y anotación de datos de interacción entre humanos y escenas", añadió Zhu. "También mejoraremos la eficiencia de inferencia de nuestro modelo de difusión para reforzar su aplicabilidad práctica".

Un nuevo marco para generar movimientos humanos a partir de indicaciones del lenguaje.