Les chercheurs affinent le contrôle de la génération d'images IA

Mise à jour : 1 juin 2021
Les chercheurs affinent le contrôle de la génération d'images IA

Des chercheurs de la North Carolina State University ont développé une nouvelle méthode de pointe pour contrôler la façon dont les systèmes d'intelligence artificielle (IA) créent des images. Le travail a des applications dans des domaines allant de la robotique autonome à la formation en IA.

Le problème est un type de tâche d'IA appelée génération d'images conditionnelle, dans laquelle les systèmes d'IA créent des images qui répondent à un ensemble spécifique de conditions. Par exemple, un système pourrait être entraîné à créer des images originales de chats ou de chiens, selon l'animal demandé par l'utilisateur. Des techniques plus récentes se sont appuyées sur cela pour incorporer des conditions concernant une mise en page d'image. Cela permet aux utilisateurs de spécifier les types d'objets qu'ils souhaitent voir apparaître à des endroits particuliers de l'écran. Par exemple, le ciel peut aller dans une boîte, un arbre peut être dans une autre boîte, un ruisseau peut être dans une boîte séparée, et ainsi de suite.

Le nouveau travail s'appuie sur ces techniques pour donner aux utilisateurs plus de contrôle sur les images résultantes et pour conserver certaines caractéristiques sur une série d'images.

«Notre approche est hautement reconfigurable», explique Tianfu Wu, co-auteur d'un article sur le travail et professeur adjoint d'ingénierie informatique à NC State. « Comme les approches précédentes, la nôtre permet aux utilisateurs de faire en sorte que le système génère une image en fonction d'un ensemble spécifique de conditions. Mais le nôtre vous permet également de conserver cette image et de l'enrichir. Par exemple, les utilisateurs peuvent demander à l'IA de créer une scène de montagne. Les utilisateurs pourraient alors demander au système d'ajouter des skieurs à cette scène.

De plus, la nouvelle approche permet aux utilisateurs de faire en sorte que l'IA manipule des éléments spécifiques afin qu'ils soient identiques de manière identifiable, mais qu'ils aient bougé ou changé d'une manière ou d'une autre. Par exemple, l'IA peut créer une série d'images montrant des skieurs se tournant vers le spectateur lorsqu'ils se déplacent à travers le paysage.

"Une application pour cela serait d'aider les robots autonomes à" imaginer "à quoi pourrait ressembler le résultat final avant de commencer une tâche donnée", explique Wu. « Vous pouvez également utiliser le système pour générer des images pour la formation à l'IA. Ainsi, au lieu de compiler des images à partir de sources externes, vous pouvez utiliser ce système pour créer des images afin de former d'autres systèmes d'IA.

Les chercheurs ont testé leur nouvelle approche en utilisant l'ensemble de données COCO-Stuff et l'ensemble de données Visual Genome. Basée sur des mesures standard de qualité d'image, la nouvelle approche a surpassé les précédentes techniques de création d'images de pointe.

"Notre prochaine étape consiste à voir si nous pouvons étendre ce travail à la vidéo et aux images en trois dimensions", a déclaré Wu.

La formation à la nouvelle approche nécessite une bonne quantité de puissance de calcul ; les chercheurs ont utilisé une station de travail 4-GPU. Cependant, le déploiement du système est moins coûteux en calcul.

« Nous avons trouvé celui-là GPU vous donne une vitesse presque en temps réel », dit Wu