Uma nova estrutura para gerar movimentos humanos a partir de instruções de linguagem

Empregar a disponibilidade de cena como uma representação intermediária aprimora os recursos de geração de movimento nos benchmarks (a) HumanML3D e (b) HUMANISE, e aumenta significativamente a capacidade do modelo de generalizar para (c) cenários invisíveis. Crédito: Wang et al.

Modelos baseados em aprendizado de máquina que podem gerar de forma autônoma vários tipos de conteúdo tornaram-se cada vez mais avançados nos últimos anos. Essas estruturas abriram novas possibilidades para a produção de filmes e para a compilação de conjuntos de dados para treinar algoritmos robóticos.

Embora alguns modelos existentes possam gerar imagens realistas ou artísticas com base em descrições de texto, o desenvolvimento de IA que possa gerar vídeos de figuras humanas em movimento com base em instruções humanas tem se mostrado mais desafiador até agora. Em artigo pré-publicado no servidor arXiv e apresentado na Conferência IEEE/CVF sobre Visão Computacional e Reconhecimento de Padrões 2024, pesquisadores do Instituto de Pequim de Equipar, BIGAI e a Universidade de Pequim apresentam uma nova estrutura promissora que pode enfrentar eficazmente esta tarefa.

“Os primeiros experimentos em nosso trabalho anterior, HUMANIZE, indicaram que uma estrutura de dois estágios poderia melhorar a geração de movimento humano guiado por linguagem em cenas 3D, decompondo a tarefa em aterramento de cena e geração de movimento condicional”, Yixin Zhu, coautor do papel, disse ao Tech Xplore.

“Alguns trabalhos em robótica também demonstraram o impacto positivo da affordance na capacidade de generalização do modelo, o que nos inspira a empregar a affordance da cena como uma representação intermediária para esta tarefa complexa.”

A nova estrutura introduzida por Zhu e seus colegas baseia-se em um modelo generativo que introduziram há alguns anos, chamado HUMANIZE. Os pesquisadores decidiram melhorar a capacidade deste modelo de generalizar bem novos problemas, por exemplo, criando movimentos realistas em resposta ao prompt “deitar no chão”, depois de aprenderem a gerar efetivamente um movimento de “deitar na cama”.

“Nosso método se desdobra em dois estágios: um modelo de difusão de recursos (ADM) para previsão do mapa de recursos e um modelo de difusão de recursos para movimento (AMDM) para gerar movimento humano a partir da descrição e recursos pré-produzidos”, Siyuan Huang, co- autor do artigo, explicou.

“Ao utilizar mapas de affordance derivados do campo de distância entre as articulações do esqueleto humano e as superfícies da cena, nosso modelo vincula efetivamente o aterramento da cena 3D e a geração de movimento condicional inerente a esta tarefa.”

O método proposto primeiro prevê o mapa de affordance da cena a partir da descrição da linguagem usando o Modelo de Difusão de Affordance (ADM) e então gera movimentos humanos interativos com o Modelo de Difusão de Affordance-to-Motion (AMDM) condicionado no mapa de affordance pré-produzido. Crédito: Wang et al.

A nova estrutura da equipe tem várias vantagens notáveis em relação às abordagens introduzidas anteriormente para geração de movimento humano guiado por linguagem. Primeiro, as representações nas quais ele se baseia delineiam claramente a região associada às descrições/prompts de um usuário. Isso melhora suas capacidades de aterramento 3D, permitindo criar movimentos convincentes com dados de treinamento limitados.

“Os mapas utilizados pelo nosso modelo também oferecem uma compreensão profunda da interação geométrica entre cenas e movimentos, auxiliando sua generalização em diversas geometrias de cena”, disse Wei Liang, coautor do artigo. “A principal contribuição do nosso trabalho reside no aproveitamento da representação explícita de recursos de cena para facilitar a geração de movimento humano guiada por linguagem em cenas 3D.”

Este estudo realizado por Zhu e seus colegas demonstra o potencial dos modelos de geração de movimento condicional que integram recursos e representações de cena. A equipe espera que seu modelo e sua abordagem subjacente estimulem a inovação na comunidade de pesquisa generativa em IA.

O novo modelo que desenvolveram poderá em breve ser aperfeiçoado e aplicado a vários problemas do mundo real. Por exemplo, poderia ser utilizado para produzir filmes de animação realistas utilizando IA ou para gerar dados de treino sintéticos realistas para aplicações robóticas.

“Nossa pesquisa futura se concentrará em abordar a escassez de dados por meio de estratégias aprimoradas de coleta e anotação para dados de interação entre cena humana”, acrescentou Zhu. “Também melhoraremos a eficiência de inferência do nosso modelo de difusão para reforçar a sua aplicabilidade prática.”