Pesquisadores ajustam o controle sobre a geração de imagens de IA

Atualização: 1 de junho de 2021
Pesquisadores ajustam o controle sobre a geração de imagens de IA

Pesquisadores da North Carolina State University desenvolveram um novo método de última geração para controlar como os sistemas de inteligência artificial (IA) criam imagens. O trabalho tem aplicações para campos que vão da robótica autônoma ao treinamento de IA.

Em questão está um tipo de tarefa de IA chamada geração de imagem condicional, na qual os sistemas de IA criam imagens que atendem a um conjunto específico de condições. Por exemplo, um sistema pode ser treinado para criar imagens originais de cães ou gatos, dependendo de qual animal o usuário solicitou. Técnicas mais recentes se basearam nisso para incorporar condições relacionadas ao layout de uma imagem. Isso permite que os usuários especifiquem quais tipos de objetos desejam que apareçam em determinados locais da tela. Por exemplo, o céu pode ficar em uma caixa, uma árvore pode estar em outra caixa, um riacho pode estar em uma caixa separada e assim por diante.

O novo trabalho baseia-se nessas técnicas para dar aos usuários mais controle sobre as imagens resultantes e para reter certas características em uma série de imagens.

“Nossa abordagem é altamente reconfigurável”, diz Tianfu Wu, coautor de um artigo sobre o trabalho e professor assistente de engenharia da computação na NC State. “Como as abordagens anteriores, a nossa permite que os usuários façam com que o sistema gere uma imagem com base em um conjunto específico de condições. Mas o nosso também permite que você retenha essa imagem e a acrescente. Por exemplo, os usuários podem fazer com que a IA crie uma cena de montanha. Os usuários poderiam então fazer com que o sistema adicionasse esquiadores a esse cenário. ”

Além disso, a nova abordagem permite que os usuários façam com que a IA manipule elementos específicos de modo que sejam identificáveis ​​os mesmos, mas tenham sido movidos ou alterados de alguma forma. Por exemplo, a IA pode criar uma série de imagens mostrando os esquiadores se virando em direção ao observador enquanto se movem pela paisagem.

“Uma aplicação para isso seria ajudar robôs autônomos a 'imaginar' como seria o resultado final antes de iniciar uma determinada tarefa”, diz Wu. “Você também pode usar o sistema para gerar imagens para o treinamento de IA. Então, em vez de compilar imagens de fontes externas, você pode usar este sistema para criar imagens para treinar outros sistemas de IA. ”

Os pesquisadores testaram sua nova abordagem usando o conjunto de dados COCO-Stuff e o conjunto de dados Visual Genome. Com base em medidas padrão de qualidade de imagem, a nova abordagem superou as técnicas de criação de imagem de última geração anteriores.

“Nosso próximo passo é ver se podemos estender esse trabalho para vídeo e imagens tridimensionais”, diz Wu.

O treinamento para a nova abordagem requer uma boa quantidade de poder computacional; os pesquisadores usaram uma estação de trabalho de 4 GPU. No entanto, a implantação do sistema é menos dispendiosa do ponto de vista computacional.

“Encontramos aquele GPU oferece velocidade quase em tempo real ”, diz Wu