Nuovi modelli matematici e algoritmi per l'elaborazione intelligente delle immagini

Aggiornamento: 2 giugno 2021
Nuovi modelli matematici e algoritmi per l'elaborazione intelligente delle immagini

Utilizzando la corteccia visiva come modello nel cervello umano, il gruppo di ricerca guidato dal vincitore del premio ERC Thomas Pock ha sviluppato nuovi modelli e algoritmi matematici come base per programmi di elaborazione delle immagini più veloci e intelligenti.

La nostra corteccia visiva può catturare immagini e riconoscere oggetti in una frazione di secondo, anche se sono appena visibili o solo frammentari. Uno dei motivi di questa fantastica prestazione di picco è l'architettura a strati gerarchici altamente efficiente della corteccia visiva. Filtra le informazioni visive, riconosce le connessioni e completa l'immagine utilizzando schemi familiari. Il processo alla base di questo è ancora poco compreso nella sua complessità. È vero che ora esistono algoritmi di deep learning che possono eguagliare o, in alcuni casi, superare le prestazioni umane in determinate attività di riconoscimento di modelli. Uno svantaggio di questi algoritmi, tuttavia, è che è difficile capire cosa hanno imparato, come funzionano o quando commettono errori.

Thomas Pock dell'Istituto di computer grafica e visione dell'Università di Graz Tecnologia (TU Graz) è stato sulle tracce di queste conoscenze nell'ambito del suo progetto di sovvenzione iniziale del CER HOMOVIS (High-Level Prior Models for Computer Vision). Ha lavorato intensamente sulla questione di come calcolare, mediante modelli matematici, i modi di funzionamento conosciuti della corteccia visiva e trasferirli ad applicazioni di elaborazione delle immagini. Dopo cinque anni di ricerca, 41 pubblicazioni e un brevetto, il ricercatore e il suo gruppo di ricerca hanno accumulato una vasta conoscenza che consente nuovi algoritmi di elaborazione delle immagini per un'ampia varietà di applicazioni.

Il principale fondatore della psicologia della Gestalt ha usato queste leggi per cercare di spiegare il processo della visione umana, in cui gli stimoli e le impressioni sensoriali sono messi insieme per formare un grande insieme. “Gli esseri umani possono già riconoscere correttamente oggetti parziali o incompleti sulla base di singoli punti o contorni soggettivi (contorni illusori). Il cervello umano inserisce automaticamente le informazioni mancanti sull'immagine. Ad esempio, collegando i punti tramite curve il più possibile lisce", afferma Pock. Pock e il suo team hanno descritto per la prima volta questo fenomeno di ricerca della forma utilizzando modelli matematici basati sulle curve elastiche di Eulero, una famosa equazione del matematico Leonhard Euler che può essere utilizzata per calcolare le curve di curvatura minima.

Rappresentazione in uno spazio a più dimensioni

Basandosi sulle curve elastiche di Eulero, il gruppo di Pock ha sviluppato nuovi algoritmi per risolvere alcuni problemi di elaborazione delle immagini dipendenti dalla curvatura. Di conseguenza, la soluzione è tanto più semplice se le immagini (2D) e le loro caratteristiche sono rappresentate come punti dati nello spazio tridimensionale. "Nella terza dimensione, otteniamo una variabile aggiuntiva con l'orientamento dei bordi dell'oggetto", spiega Pock. Anche questo è modellato sulla visione umana e risale al lavoro pionieristico di due premi Nobel, David Hubel e Torsten Wiesel, che stabilirono nel 1959 che la corteccia visiva è composta da strati sensibili all'orientamento.

Da un punto di vista matematico e informatico, il più grande vantaggio di questo inserimento tridimensionale è che i problemi di elaborazione delle immagini possono essere risolti utilizzando algoritmi di ottimizzazione convessa. Nell'ottimizzazione matematica, il confine tra ottimizzazione convessa e non convessa è considerato come la grande barriera che distingue i problemi risolvibili da quelli irrisolvibili. "Quindi, abbiamo la garanzia di essere in grado di calcolare l'immagine migliore per tutte le immagini di input fornite, ovviamente solo rispetto al modello matematico utilizzato", afferma Pock.

Prospettive future

Ora, Pock e il suo team stanno lavorando su modelli migliorati che combinano le note proprietà strutturali della corteccia visiva con apprendimento profondo algoritmi. L'obiettivo è sviluppare modelli che funzionino come gli attuali algoritmi di deep learning, ma che consentano anche una comprensione più profonda delle strutture apprese. I primi successi sono già stati ottenuti nella ricostruzione di immagini di tomografia computerizzata e risonanza magnetica. “Con gli algoritmi di nuova concezione, ora è possibile ricostruire le immagini con la massima qualità nonostante vengano registrati meno dati. Ciò consente di risparmiare tempo e potenza di calcolo, e quindi anche i costi", spiega Pock.