Nouveaux modèles mathématiques et algorithmes pour le traitement intelligent des images

Mise à jour : 2 juin 2021
Nouveaux modèles mathématiques et algorithmes pour le traitement intelligent des images

En utilisant le cortex visuel comme modèle dans le cerveau humain, le groupe de recherche dirigé par Thomas Pock, lauréat du prix ERC, a développé de nouveaux modèles et algorithmes mathématiques comme base pour des programmes de traitement d'images plus rapides et plus intelligents.

Notre cortex visuel peut capturer des images et reconnaître des objets en une fraction de seconde, même s'ils sont à peine visibles ou seulement fragmentaires. L'une des raisons de ces performances de pointe fantastiques est l'architecture de couche hiérarchique très efficace du cortex visuel. Il filtre les informations visuelles, reconnaît les connexions et complète l'image à l'aide de motifs familiers. Le processus derrière cela est encore à peine compris dans sa complexité. Il est vrai qu'il existe maintenant des algorithmes d'apprentissage en profondeur qui peuvent égaler ou, dans certains cas, dépasser les performances humaines sur certaines tâches de reconnaissance de formes. Un inconvénient de ces algorithmes, cependant, est qu'il est difficile de comprendre ce qu'ils ont appris, comment ils fonctionnent ou quand ils font des erreurs.

Thomas Pock de l'Institut d'infographie et de vision de l'Université de Graz Technologie (TU Graz) a suivi ces connaissances dans le cadre de son projet ERC Starting Grant HOMOVIS (High-Level Prior Models for Computer Vision). Il a travaillé intensivement sur la question de savoir comment les modes de fonctionnement connus du cortex visuel peuvent être calculés à l'aide de modèles mathématiques et transférés aux applications de traitement d'images. Après cinq années de recherche, 41 publications et un brevet plus tard, le chercheur et son groupe de recherche ont accumulé des connaissances approfondies qui permettent de créer de nouveaux algorithmes de traitement d'images pour une grande variété d'applications.

Le principal fondateur de la psychologie de la Gestalt a utilisé ces lois pour tenter d'expliquer le processus de la vision humaine, dans lequel les stimuli et les impressions sensorielles sont réunis pour former un grand tout. « Les humains peuvent déjà reconnaître correctement des objets partiels ou incomplets sur la base de points uniques ou de contours subjectifs (contours illusoires). Le cerveau humain remplit automatiquement les informations manquantes sur l'image. Par exemple, en reliant les points via des courbes aussi lisses que possible », explique Pock. Pock et son équipe ont décrit pour la première fois ce phénomène de recherche de forme à l'aide de modèles mathématiques basés sur les courbes élastiques d'Euler, une célèbre équation du mathématicien Leonhard Euler qui peut être utilisée pour calculer des courbes de courbure minimale.

Représentation dans un espace de dimension supérieure

Sur la base des courbes élastiques d'Euler, le groupe de Pock a développé de nouveaux algorithmes pour résoudre certains problèmes de traitement d'image dépendant de la courbure. Par conséquent, la solution est d'autant plus simple que les images (2D) et leurs caractéristiques sont représentées sous forme de points de données dans l'espace tridimensionnel. « Dans la troisième dimension, nous obtenons une variable supplémentaire avec l'orientation des bords de l'objet », explique Pock. Cela aussi est calqué sur la vision humaine et remonte aux travaux pionniers de deux lauréats du prix Nobel, David Hubel et Torsten Wiesel, qui ont établi en 1959 que le cortex visuel est composé de couches sensibles à l'orientation.

D'un point de vue mathématique et informatique, le plus grand avantage de ce plongement tridimensionnel est que les problèmes de traitement d'image peuvent être résolus à l'aide d'algorithmes d'optimisation convexe. En optimisation mathématique, la frontière entre l'optimisation convexe et non convexe est considérée comme la grande barrière qui distingue les problèmes résolubles des problèmes insolubles. « Ainsi, nous sommes assurés de pouvoir calculer la meilleure image pour toutes les images d'entrée données, bien sûr uniquement par rapport au modèle mathématique utilisé », explique Pock.

Perspectives d'avenir

Maintenant, Pock et son équipe travaillent sur des modèles améliorés qui combinent les propriétés structurelles connues du cortex visuel avec l'apprentissage en profondeur algorithmes. L'objectif est de développer des modèles aussi performants que les algorithmes actuels d'apprentissage en profondeur, mais permettant également une compréhension plus approfondie des structures apprises. Des premiers succès ont déjà été obtenus dans la reconstruction d'images de tomographie par ordinateur et de résonance magnétique. « Avec les algorithmes nouvellement développés, il est désormais possible de reconstruire des images de la plus haute qualité malgré moins de données enregistrées. Cela permet d'économiser du temps et de la puissance de calcul, et donc aussi des coûts », explique Pock.