Novos modelos matemáticos e algoritmos para processamento inteligente de imagens

Atualização: 2 de junho de 2021
Novos modelos matemáticos e algoritmos para processamento inteligente de imagens

Usando o córtex visual como modelo no cérebro humano, o grupo de pesquisa liderado pelo vencedor do prêmio ERC Thomas Pock desenvolveu novos modelos matemáticos e algoritmos como base para programas de processamento de imagem mais rápidos e inteligentes.

Nosso córtex visual pode capturar imagens e reconhecer objetos em uma fração de segundo, mesmo que sejam pouco visíveis ou fragmentados. Uma razão para esse fantástico desempenho de pico é a arquitetura de camada hierárquica altamente eficiente do córtex visual. Ele filtra as informações visuais, reconhece conexões e completa a imagem usando padrões familiares. O processo por trás disso ainda é pouco compreendido em sua complexidade. É verdade que agora existem algoritmos de aprendizado profundo que podem corresponder ou, em alguns casos, exceder o desempenho humano em certas tarefas de reconhecimento de padrões. Uma desvantagem desses algoritmos, no entanto, é que é difícil entender o que aprenderam, como funcionam ou quando cometem erros.

Thomas Pock, do Instituto de Computação Gráfica e Visão da Universidade de Graz Equipar (TU Graz) estava na trilha desse conhecimento como parte de seu projeto ERC Starting Grant HOMOVIS (High-Level Prior Models for Computer Vision). Ele trabalhou intensamente na questão de como os modos conhecidos de operação do córtex visual podem ser calculados usando modelos matemáticos e transferidos para aplicativos de processamento de imagens. Após cinco anos de pesquisa, 41 publicações e uma patente depois, o pesquisador e seu grupo de pesquisa acumularam amplo conhecimento que possibilita novos algoritmos de processamento de imagens para as mais diversas aplicações.

O principal fundador da psicologia da Gestalt usou essas leis para tentar explicar o processo da visão humana, no qual estímulos e impressões sensoriais são reunidos para formar um grande todo. “Os humanos já podem reconhecer corretamente objetos parciais ou incompletos com base em pontos únicos ou contornos subjetivos (contornos ilusórios). O cérebro humano preenche automaticamente as informações da imagem que faltam. Por exemplo, conectando os pontos por meio de curvas tão suaves quanto possível ”, diz Pock. Pock e sua equipe descreveram esse fenômeno de descoberta de forma pela primeira vez usando modelos matemáticos baseados nas curvas elásticas de Euler - uma equação famosa do matemático Leonhard Euler que pode ser usada para calcular curvas de curvatura mínima.

Representação em um espaço de dimensão superior

Com base nas curvas elásticas de Euler, o grupo de Pock desenvolveu novos algoritmos para resolver certos problemas de processamento de imagem dependentes da curvatura. Consequentemente, a solução é ainda mais fácil se as imagens (2D) e seus recursos forem representados como pontos de dados no espaço tridimensional. “Na terceira dimensão, obtemos uma variável adicional com a orientação das bordas do objeto”, explica Pock. Isso também é modelado na visão humana e remonta ao trabalho pioneiro de dois ganhadores do Nobel, David Hubel e Torsten Wiesel, que estabeleceram em 1959 que o córtex visual é composto de camadas sensíveis à orientação.

Do ponto de vista matemático e da ciência da computação, a maior vantagem dessa incorporação tridimensional é que os problemas de processamento de imagem podem ser resolvidos usando algoritmos de otimização convexa. Na otimização matemática, a fronteira entre a otimização convexa e não convexa é considerada a grande barreira que distingue os problemas solucionáveis ​​dos insolúveis. “Assim, temos a garantia de poder calcular a melhor imagem para todas as imagens de entrada fornecidas - é claro, apenas em relação ao modelo matemático usado”, diz Pock.

Perspectiva futura

Agora, Pock e sua equipe estão trabalhando em modelos aprimorados que combinam as propriedades estruturais conhecidas do córtex visual com Aprendizado profundo algoritmos. O objetivo é desenvolver modelos que tenham um desempenho tão bom quanto os atuais algoritmos de aprendizado profundo, mas também permitam um entendimento mais profundo das estruturas aprendidas. Sucessos iniciais já foram alcançados na reconstrução de imagens de tomografia computadorizada e ressonância magnética. “Com os algoritmos desenvolvidos recentemente, agora é possível reconstruir imagens com a mais alta qualidade, apesar de menos dados sendo registrados. Isso economiza tempo e capacidade de computação e, portanto, também custos ”, explica Pock.