Neue mathematische Modelle und Algorithmen für die intelligente Bildverarbeitung

Update: 2. Juni 2021
Neue mathematische Modelle und Algorithmen für die intelligente Bildverarbeitung

Anhand des visuellen Kortex als Vorbild im menschlichen Gehirn hat die Forschungsgruppe um ERC-Preisträger Thomas Pock neue mathematische Modelle und Algorithmen als Grundlage für schnellere und intelligentere Bildverarbeitungsprogramme entwickelt.

Unser visueller Kortex kann in Sekundenbruchteilen Bilder aufnehmen und Objekte erkennen, selbst wenn diese kaum oder nur fragmentarisch sichtbar sind. Ein Grund für diese fantastische Spitzenleistung ist die hocheffiziente hierarchische Schichtenarchitektur des visuellen Kortex. Es filtert die visuellen Informationen, erkennt Zusammenhänge und vervollständigt das Bild anhand bekannter Muster. Der dahinter stehende Prozess ist in seiner Komplexität noch kaum verstanden. Es stimmt, dass es mittlerweile Deep-Learning-Algorithmen gibt, die bei bestimmten Mustererkennungsaufgaben mit der menschlichen Leistung mithalten oder diese in manchen Fällen sogar übertreffen können. Ein Nachteil dieser Algorithmen besteht jedoch darin, dass es schwierig ist, zu verstehen, was sie gelernt haben, wie sie funktionieren oder wann sie Fehler machen.

Thomas Pock vom Institut für Computergrafik und Bildverarbeitung der Universität Graz Technologie (TU Graz) war diesem Wissen im Rahmen seines ERC Starting Grant-Projekts HOMOVIS (High-Level Prior Models for Computer Vision) auf der Spur. Er beschäftigte sich intensiv mit der Frage, wie bekannte Funktionsweisen des visuellen Kortex mithilfe mathematischer Modelle berechnet und auf Bildverarbeitungsanwendungen übertragen werden können. Nach fünf Jahren Forschung, 41 Veröffentlichungen und einem Patent später haben der Forscher und seine Forschungsgruppe umfassende Erkenntnisse gesammelt, die neue Bildverarbeitungsalgorithmen für unterschiedlichste Anwendungen ermöglichen.

Mit diesen Gesetzmäßigkeiten versuchte der Hauptbegründer der Gestaltpsychologie den Prozess des menschlichen Sehens zu erklären, bei dem Reize und Sinneseindrücke zu einem großen Ganzen zusammengefügt werden. „Menschen können teilweise oder unvollständige Objekte bereits anhand einzelner Punkte oder subjektiver Konturen (Scheinkonturen) richtig erkennen.“ Das menschliche Gehirn ergänzt die fehlenden Bildinformationen automatisch. Beispielsweise indem die Punkte über möglichst glatte Kurven verbunden werden“, sagt Pock. Pock und sein Team haben dieses Phänomen der Formfindung erstmals mithilfe mathematischer Modelle beschrieben, die auf den elastischen Euler-Kurven basieren – einer berühmten Gleichung des Mathematikers Leonhard Euler, mit der sich Kurven minimaler Krümmung berechnen lassen.

Darstellung in einem höherdimensionalen Raum

Basierend auf Eulers elastischen Kurven entwickelte Pocks Gruppe neue Algorithmen zur Lösung bestimmter krümmungsabhängiger Bildverarbeitungsprobleme. Umso einfacher ist die Lösung, wenn die (2D-)Bilder und ihre Merkmale als Datenpunkte im dreidimensionalen Raum dargestellt werden. „In der dritten Dimension erhalten wir mit der Ausrichtung der Objektkanten eine zusätzliche Variable“, erklärt Pock. Auch dies ist dem menschlichen Sehen nachempfunden und geht auf die Pionierarbeit der beiden Nobelpreisträger David Hubel und Torsten Wiesel zurück, die 1959 feststellten, dass der visuelle Kortex aus orientierungsempfindlichen Schichten besteht.

Aus mathematisch-informatischer Sicht besteht der größte Vorteil dieser dreidimensionalen Einbettung darin, dass Bildverarbeitungsprobleme mithilfe konvexer Optimierungsalgorithmen gelöst werden können. In der mathematischen Optimierung wird die Grenze zwischen konvexer und nichtkonvexer Optimierung als die große Barriere betrachtet, die lösbare von unlösbaren Problemen unterscheidet. „Somit ist gewährleistet, dass wir für alle vorgegebenen Eingabebilder das beste Bild berechnen können – natürlich nur im Hinblick auf das verwendete mathematische Modell“, sagt Pock.

Zukunftsausblick

Jetzt arbeiten Pock und sein Team an verbesserten Modellen, die die bekannten strukturellen Eigenschaften des visuellen Kortex mit kombinieren tiefes Lernen Algorithmen. Ziel ist es, Modelle zu entwickeln, die genauso gut funktionieren wie aktuelle Deep-Learning-Algorithmen, aber auch ein tieferes Verständnis der erlernten Strukturen ermöglichen. Bei der Rekonstruktion von Computertomographie- und Magnetresonanzbildern konnten bereits erste Erfolge erzielt werden. „Mit den neu entwickelten Algorithmen ist es nun möglich, Bilder in höchster Qualität zu rekonstruieren, obwohl weniger Daten aufgezeichnet werden. Das spart Zeit und Rechenleistung und damit auch Kosten“, erklärt Pock.