Nieuwe wiskundige modellen en algoritmen voor intelligente beeldverwerking

Update: 2 juni 2021
Nieuwe wiskundige modellen en algoritmen voor intelligente beeldverwerking

Met behulp van de visuele cortex als model in het menselijk brein heeft de onderzoeksgroep onder leiding van ERC-award-winnaar Thomas Pock nieuwe wiskundige modellen en algoritmen ontwikkeld als basis voor snellere en intelligentere beeldverwerkingsprogramma's.

Onze visuele cortex kan beelden vastleggen en objecten herkennen in een fractie van een seconde, zelfs als ze nauwelijks zichtbaar of slechts fragmentarisch zijn. Een reden voor deze fantastische topprestaties is de zeer efficiënte hiërarchische laagarchitectuur van de visuele cortex. Het filtert de visuele informatie, herkent verbanden en maakt het beeld compleet met bekende patronen. Het proces hierachter wordt nog steeds nauwelijks begrepen in zijn complexiteit. Het is waar dat er nu deep learning-algoritmen bestaan ​​die de menselijke prestaties bij bepaalde patroonherkenningstaken kunnen evenaren of, in sommige gevallen, overtreffen. Een nadeel van deze algoritmen is echter dat ze moeilijk te begrijpen zijn wat ze hebben geleerd, hoe ze werken of wanneer ze fouten maken.

Thomas Pock van het Instituut voor Computer Graphics en Vision aan de Universiteit van Graz Technologie (TU Graz) was deze kennis op het spoor als onderdeel van zijn ERC Starting Grant-project HOMOVIS (High-Level Prior Models for Computer Vision). Hij werkte intensief aan de vraag hoe bekende werkingsmodi van de visuele cortex kunnen worden berekend met behulp van wiskundige modellen en kunnen worden overgedragen naar beeldverwerkingstoepassingen. Na vijf jaar onderzoek, 41 publicaties en één patent later hebben de onderzoeker en zijn onderzoeksgroep uitgebreide kennis verzameld die nieuwe beeldverwerkingsalgoritmen mogelijk maakt voor een grote verscheidenheid aan toepassingen.

De belangrijkste grondlegger van de Gestaltpsychologie gebruikte deze wetten om het proces van het menselijk zien te verklaren, waarbij prikkels en zintuiglijke indrukken worden samengevoegd tot een groot geheel. “Mensen kunnen gedeeltelijke of onvolledige objecten al correct herkennen aan de hand van enkele punten of subjectieve contouren (illusoire contouren). Het menselijk brein vult automatisch de ontbrekende beeldinformatie in. Bijvoorbeeld door de punten met elkaar te verbinden via zo vloeiend mogelijke bochten”, zegt Pock. Pock en zijn team beschreven dit fenomeen van vormvinding voor de eerste keer met behulp van wiskundige modellen gebaseerd op de elastische krommen van Euler - een beroemde vergelijking van de wiskundige Leonhard Euler die kan worden gebruikt om krommen met minimale kromming te berekenen.

Representatie in een hoger-dimensionale ruimte

Op basis van de elastische krommen van Euler ontwikkelde de groep van Pock nieuwe algoritmen om bepaalde krommingsafhankelijke beeldverwerkingsproblemen op te lossen. Bijgevolg is de oplossing des te gemakkelijker als de (2D)-afbeeldingen en hun kenmerken worden weergegeven als gegevenspunten in een driedimensionale ruimte. "In de derde dimensie krijgen we een extra variabele met de oriëntatie van de objectranden", legt Pock uit. Ook dit is gemodelleerd naar het menselijk gezichtsvermogen en gaat terug op het pionierswerk van twee Nobelprijswinnaars, David Hubel en Torsten Wiesel, die in 1959 vaststelden dat de visuele cortex is samengesteld uit oriëntatiegevoelige lagen.

Vanuit wiskundig en computerwetenschappelijk oogpunt is het grootste voordeel van deze driedimensionale inbedding dat beeldverwerkingsproblemen kunnen worden opgelost met behulp van convexe optimalisatie-algoritmen. Bij wiskundige optimalisatie wordt de grens tussen convexe en niet-convexe optimalisatie beschouwd als de grote barrière die oplosbare en onoplosbare problemen onderscheidt. "Zo zijn we gegarandeerd in staat om de beste afbeelding te berekenen voor alle gegeven invoerafbeeldingen - natuurlijk alleen met betrekking tot het gebruikte wiskundige model", zegt Pock.

Toekomstblik

Nu werken Pock en zijn team aan verbeterde modellen die de bekende structurele eigenschappen van de visuele cortex combineren met: deep-learning algoritmen. Het doel is om modellen te ontwikkelen die even goed presteren als de huidige deep-learning algoritmen, maar die ook een dieper begrip van de geleerde structuren mogelijk maken. De eerste successen zijn al geboekt bij de reconstructie van computertomografie en magnetische resonantiebeelden. “Met de nieuw ontwikkelde algoritmen is het nu mogelijk om beelden met de hoogste kwaliteit te reconstrueren, ondanks dat er minder gegevens worden vastgelegd. Dat scheelt tijd en rekenkracht, en dus ook kosten”, legt Pock uit.