Новые математические модели и алгоритмы интеллектуальной обработки изображений

Обновление: 2 июня 2021 г.
Новые математические модели и алгоритмы интеллектуальной обработки изображений

Используя зрительную кору в качестве модели человеческого мозга, исследовательская группа, возглавляемая лауреатом премии ERC Томасом Поком, разработала новые математические модели и алгоритмы в качестве основы для более быстрых и интеллектуальных программ обработки изображений.

Наша зрительная кора может захватывать изображения и распознавать объекты за доли секунды, даже если они едва заметны или являются фрагментарными. Одной из причин такой фантастической пиковой производительности является высокоэффективная иерархическая архитектура уровня зрительной коры. Он фильтрует визуальную информацию, распознает связи и дополняет изображение, используя знакомые шаблоны. Процесс, стоящий за этим, все еще трудно понять из-за его сложности. Это правда, что сейчас существуют алгоритмы глубокого обучения, которые могут соответствовать или, в некоторых случаях, превосходить человеческую производительность при выполнении определенных задач распознавания образов. Однако одним из недостатков этих алгоритмов является то, что трудно понять, что они узнали, как они работают или когда они совершают ошибки.

Томас Пок из Института компьютерной графики и зрения Университета Граца. Технологии (ТУ Граца) воспользовался этими знаниями в рамках своего проекта HOMOVIS (High-Level Prior Models for Computer Vision) по стартовому гранту ERC. Он интенсивно работал над вопросом, как известные режимы работы зрительной коры можно рассчитать с помощью математических моделей и перенести в приложения по обработке изображений. После пяти лет исследований, 41 публикации и одного патента позднее исследователь и его исследовательская группа накопили обширные знания, которые позволяют использовать новые алгоритмы обработки изображений для самых разных приложений.

Главный основатель гештальт-психологии использовал эти законы, чтобы попытаться объяснить процесс человеческого зрения, в котором стимулы и сенсорные впечатления соединяются в единое целое. «Люди уже могут правильно распознавать частичные или неполные объекты на основе отдельных точек или субъективных контуров (иллюзорных контуров). Человеческий мозг автоматически заполняет недостающую информацию об изображении. Например, соединив точки с помощью максимально гладких кривых », - говорит Пок. Пок и его команда впервые описали это явление нахождения формы, используя математические модели, основанные на упругих кривых Эйлера - известном уравнении математика Леонарда Эйлера, которое можно использовать для расчета кривых минимальной кривизны.

Представление в многомерном пространстве

Основываясь на упругих кривых Эйлера, группа Пока разработала новые алгоритмы для решения определенных задач обработки изображений, зависящих от кривизны. Следовательно, решение будет тем проще, если (2D) изображения и их характеристики будут представлены в виде точек данных в трехмерном пространстве. «В третьем измерении мы получаем дополнительную переменную с ориентацией краев объекта», - объясняет Пок. Он также основан на человеческом зрении и восходит к новаторской работе двух нобелевских лауреатов, Дэвида Хьюбела и Торстена Визеля, которые в 1959 году установили, что зрительная кора состоит из слоев, чувствительных к ориентации.

С точки зрения математики и информатики, самым большим преимуществом этого трехмерного встраивания является то, что проблемы обработки изображений могут быть решены с использованием алгоритмов выпуклой оптимизации. В математической оптимизации граница между выпуклой и невыпуклой оптимизацией рассматривается как большой барьер, который отличает решаемые задачи от неразрешимых. «Таким образом, мы гарантированно сможем вычислить лучшее изображение для всех заданных входных изображений - конечно, только в отношении используемой математической модели», - говорит Пок.

Будущие перспективы

Сейчас Пок и его команда работают над улучшенными моделями, сочетающими известные структурные свойства зрительной коры с глубокое обучение алгоритмы. Цель состоит в том, чтобы разработать модели, которые работают так же хорошо, как текущие алгоритмы глубокого обучения, но также позволяют глубже понять изученные структуры. Первые успехи уже достигнуты в восстановлении изображений компьютерной томографии и магнитного резонанса. «Благодаря недавно разработанным алгоритмам теперь возможно реконструировать изображения с высочайшим качеством, несмотря на меньшее количество записываемых данных. Это экономит время и вычислительную мощность, а значит, и затраты », - поясняет Пок.