Enseigner l'IA à voir la profondeur dans la photographie et la peinture

Enseigner l'IA pour voir la profondeur de la photographie et de la peinture

Les chercheurs du laboratoire de photographie informatique de SFU espèrent donner aux ordinateurs un avantage visuel que nous, les humains, tenons pour acquis : la capacité de voir la profondeur d'une photographie. Alors que les humains peuvent naturellement déterminer à quel point les objets sont proches ou éloignés d'un seul point de vue, comme une photographie ou une peinture, c'est un défi pour les ordinateurs, mais un défi qu'ils pourraient bientôt surmonter.

Des chercheurs ont récemment publié leurs travaux améliorant un processus appelé estimation de profondeur monoculaire, une technique qui enseigne aux ordinateurs comment voir la profondeur à l'aide de l'apprentissage automatique.

« Lorsque nous regardons une image, nous pouvons déterminer la distance relative des objets en examinant leur taille, leur position et leur relation les uns par rapport aux autres », explique Mahdi Miangoleh, un étudiant à la maîtrise travaillant dans le laboratoire. « Cela nécessite de reconnaître les objets d'une scène et de connaître leur taille dans la vraie vie. Cette tâche à elle seule est un sujet de recherche actif pour les réseaux de neurones.

Malgré les progrès réalisés ces dernières années, les efforts existants pour fournir des résultats haute résolution pouvant transformer une image en un espace tridimensionnel (3D) ont échoué.

Pour contrer cela, le laboratoire a reconnu le potentiel inexploité des modèles de réseaux de neurones existants dans la littérature. La recherche proposée explique le manque de résultats à haute résolution dans les méthodes actuelles par les limites des réseaux de neurones convolutifs. Malgré les avancées majeures de ces dernières années, les réseaux de neurones ont encore une capacité relativement faible pour générer de nombreux détails à la fois.

Une autre limitation est la quantité de scène que ces réseaux peuvent « regarder » à la fois, ce qui détermine la quantité d'informations que le réseau neuronal peut utiliser pour comprendre des scènes complexes. En travaillant pour augmenter la résolution de leurs estimations visuelles, les chercheurs permettent désormais de créer des rendus 3D détaillés qui semblent réalistes à un œil humain. Ces "cartes de profondeur" sont utilisées pour créer des rendus 3D de scènes et simuler le mouvement de la caméra en infographie.

«Notre méthode analyse une image et optimise le processus en regardant le contenu de l'image en fonction des limitations des architectures actuelles», explique Ph.D. étudiant Sebastian Dille. « Nous donnons notre image d'entrée à notre réseau de neurones sous de nombreuses formes différentes, pour créer autant de détails que le modèle le permet tout en préservant une géométrie réaliste. »

« Avec les cartes de profondeur haute résolution que l'équipe est capable de développer pour des photographies du monde réel, les artistes et les créateurs de contenu peuvent désormais transférer immédiatement leur photographie ou leur œuvre dans un monde 3D riche », explique Yağız Aksoy, professeur d'informatique et directeur de laboratoire. , dont l'équipe a collaboré avec les chercheurs Sylvain Paris et Long Mai, d'Adobe Research.

Les outils permettent aux artistes de transformer l'art 2D en mondes 3D

Des artistes internationaux utilisent déjà les applications rendues possibles par les recherches du laboratoire d'Aksoy. Akira Saito, un artiste visuel basé au Japon, crée des vidéos qui emmènent les téléspectateurs dans des mondes 3D fantastiques rêvés d'œuvres d'art 2D. Pour ce faire, il combine des outils tels que Houdini, un logiciel d'animation par ordinateur, avec la carte de profondeur générée par Aksoy et son équipe.

« C'est un grand plaisir de voir des artistes indépendants profiter de notre sans souci à leur manière », explique Aksoy, dont le laboratoire envisage d'étendre ce travail aux vidéos et de développer de nouveaux outils qui rendront les cartes de profondeur plus utiles pour les artistes.

« Nous avons fait de grands progrès dans le domaine de la vision par ordinateur et de l'infographie ces dernières années, mais l'adoption de ces nouvelles AI technologies par la communauté des artistes doit être un processus organique, et cela prend du temps.

+ de publications

Anritsu organisera des discussions sur les tests éducatifs lors de la DesignCon à San Jose
Intelligence artificielle symbolique exacte pour une évaluation plus rapide et meilleure de l'équité de l'IA
electronica India et Productronica India ainsi que MatDispens sont reprogrammés du 16 au 18 décembre 2021
Honda lance le nouveau scooter électrique U-GO

Enseigner l'IA pour voir la profondeur de la photographie et de la peinture