Los investigadores afinan el control sobre la generación de imágenes de IA

Actualización: 1 de junio de 2021
Los investigadores afinan el control sobre la generación de imágenes de IA

Investigadores de la Universidad Estatal de Carolina del Norte han desarrollado un nuevo método de vanguardia para controlar cómo los sistemas de inteligencia artificial (IA) crean imágenes. El trabajo tiene aplicaciones para campos que van desde la robótica autónoma hasta el entrenamiento de IA.

El problema es un tipo de tarea de IA llamada generación de imágenes condicional, en la que los sistemas de IA crean imágenes que cumplen un conjunto específico de condiciones. Por ejemplo, se podría entrenar un sistema para crear imágenes originales de gatos o perros, dependiendo del animal que solicite el usuario. Las técnicas más recientes se han basado en esto para incorporar condiciones relacionadas con el diseño de una imagen. Esto permite a los usuarios especificar qué tipos de objetos quieren que aparezcan en lugares particulares de la pantalla. Por ejemplo, el cielo podría ir en una caja, un árbol podría estar en otra caja, un arroyo podría estar en una caja separada, y así sucesivamente.

El nuevo trabajo se basa en esas técnicas para dar a los usuarios más control sobre las imágenes resultantes y para retener ciertas características en una serie de imágenes.

“Nuestro enfoque es altamente reconfigurable”, dice Tianfu Wu, coautor de un artículo sobre el trabajo y profesor asistente de ingeniería informática en NC State. “Al igual que los enfoques anteriores, el nuestro permite a los usuarios hacer que el sistema genere una imagen basada en un conjunto específico de condiciones. Pero el nuestro también te permite conservar esa imagen y agregarle más. Por ejemplo, los usuarios pueden hacer que la IA cree una escena de montaña. Los usuarios pueden hacer que el sistema agregue esquiadores a esa escena ".

Además, el nuevo enfoque permite a los usuarios hacer que la IA manipule elementos específicos para que sean identificables iguales, pero se hayan movido o cambiado de alguna manera. Por ejemplo, la IA puede crear una serie de imágenes que muestren a los esquiadores girando hacia el espectador mientras se mueven por el paisaje.

“Una aplicación para esto sería ayudar a los robots autónomos a 'imaginar' cómo se vería el resultado final antes de comenzar una tarea determinada”, dice Wu. “También puede utilizar el sistema para generar imágenes para el entrenamiento de IA. Entonces, en lugar de compilar imágenes de fuentes externas, podría usar este sistema para crear imágenes para entrenar otros sistemas de IA ".

Los investigadores probaron su nuevo enfoque utilizando el conjunto de datos COCO-Stuff y el conjunto de datos Visual Genome. Basado en medidas estándar de calidad de imagen, el nuevo enfoque superó las técnicas de creación de imágenes de vanguardia anteriores.

“Nuestro próximo paso es ver si podemos extender este trabajo a videos e imágenes tridimensionales”, dice Wu.

El entrenamiento para el nuevo enfoque requiere una buena cantidad de poder computacional; los investigadores utilizaron una estación de trabajo de 4 GPU. Sin embargo, implementar el sistema es menos costoso computacionalmente.

"Encontramos ese GPU te ofrece una velocidad casi en tiempo real ", dice Wu