Nuevos modelos matemáticos y algoritmos para el procesamiento inteligente de imágenes

Actualización: 2 de junio de 2021
Nuevos modelos matemáticos y algoritmos para el procesamiento inteligente de imágenes

Utilizando la corteza visual como modelo en el cerebro humano, el grupo de investigación dirigido por el ganador del premio ERC Thomas Pock ha desarrollado nuevos modelos matemáticos y algoritmos como base para programas de procesamiento de imágenes más rápidos e inteligentes.

Nuestra corteza visual puede capturar imágenes y reconocer objetos en una fracción de segundo, incluso si son apenas visibles o solo están fragmentados. Una de las razones de este fantástico rendimiento máximo es la arquitectura de capa jerárquica altamente eficiente de la corteza visual. Filtra la información visual, reconoce conexiones y completa la imagen utilizando patrones familiares. El proceso detrás de esto todavía apenas se comprende en su complejidad. Es cierto que ahora existen algoritmos de aprendizaje profundo que pueden igualar o, en algunos casos, superar el desempeño humano en ciertas tareas de reconocimiento de patrones. Sin embargo, una desventaja de estos algoritmos es que es difícil comprender lo que han aprendido, cómo funcionan o cuándo cometen errores.

Thomas Pock del Instituto de Visión y Gráficos por Computadora de la Universidad de Graz Tecnología (TU Graz) estuvo tras la pista de este conocimiento como parte de su proyecto ERC Starting Grant HOMOVIS (Modelos previos de alto nivel para visión por computadora). Trabajó intensamente en la cuestión de cómo calcular los modos conocidos de funcionamiento de la corteza visual mediante modelos matemáticos y transferirlos a aplicaciones de procesamiento de imágenes. Tras cinco años de investigación, 41 publicaciones y una patente después, el investigador y su grupo de investigación han acumulado un amplio conocimiento que permite nuevos algoritmos de procesamiento de imágenes para una amplia variedad de aplicaciones.

El principal fundador de la psicología de la Gestalt utilizó estas leyes para tratar de explicar el proceso de la visión humana, en el que los estímulos y las impresiones sensoriales se unen para formar un gran todo. “Los seres humanos ya pueden reconocer correctamente objetos parciales o incompletos sobre la base de puntos únicos o contornos subjetivos (contornos ilusorios). El cerebro humano completa automáticamente la información de la imagen que falta. Por ejemplo, conectando los puntos mediante curvas lo más suaves posible ”, dice Pock. Pock y su equipo describieron este fenómeno de búsqueda de formas por primera vez utilizando modelos matemáticos basados ​​en las curvas elásticas de Euler, una famosa ecuación del matemático Leonhard Euler que se puede utilizar para calcular curvas de curvatura mínima.

Representación en un espacio de dimensiones superiores

Basado en las curvas elásticas de Euler, el grupo de Pock desarrolló nuevos algoritmos para resolver ciertos problemas de procesamiento de imágenes dependientes de la curvatura. En consecuencia, la solución es mucho más sencilla si las imágenes (2D) y sus características se representan como puntos de datos en un espacio tridimensional. "En la tercera dimensión, obtenemos una variable adicional con la orientación de los bordes del objeto", explica Pock. Esto también se basa en la visión humana y se remonta al trabajo pionero de dos premios Nobel, David Hubel y Torsten Wiesel, quienes establecieron en 1959 que la corteza visual se compone de capas sensibles a la orientación.

Desde un punto de vista matemático e informático, la mayor ventaja de esta incrustación tridimensional es que los problemas de procesamiento de imágenes se pueden resolver utilizando algoritmos de optimización convexa. En la optimización matemática, el límite entre la optimización convexa y no convexa se considera la gran barrera que distingue los problemas que se pueden resolver de los que no lo son. “Por lo tanto, tenemos la garantía de poder calcular la mejor imagen para todas las imágenes de entrada dadas, por supuesto, solo con respecto al modelo matemático utilizado”, dice Pock.

Perspectiva del futuro

Ahora, Pock y su equipo están trabajando en modelos mejorados que combinan las propiedades estructurales conocidas de la corteza visual con aprendizaje profundo algoritmos. El objetivo es desarrollar modelos que funcionen tan bien como los algoritmos de aprendizaje profundo actuales, pero que también permitan una comprensión más profunda de las estructuras aprendidas. Ya se han logrado éxitos iniciales en la reconstrucción de imágenes de tomografía computarizada y resonancia magnética. “Con los algoritmos desarrollados recientemente, ahora es posible reconstruir imágenes con la más alta calidad a pesar de que se registran menos datos. Esto ahorra tiempo y potencia de cálculo y, por tanto, también costes ”, explica Pock.