지능형 이미지 처리를위한 새로운 수학적 모델 및 알고리즘

업데이트: 2년 2021월 XNUMX일
지능형 이미지 처리를위한 새로운 수학적 모델 및 알고리즘

시각 피질을 인간 두뇌의 모델로 사용하여 ERC 수상 경력이있는 Thomas Pock이 이끄는 연구 그룹은 더 빠르고 지능적인 이미지 처리 프로그램의 기초로 새로운 수학적 모델과 알고리즘을 개발했습니다.

우리의 시각 피질은 거의 보이지 않거나 단편적이더라도 이미지를 캡처하고 물체를 XNUMX 초 만에 인식 할 수 있습니다. 이 환상적인 최고 성능의 한 가지 이유는 시각 피질의 매우 효율적인 계층 적 계층 아키텍처 때문입니다. 시각적 정보를 필터링하고 연결을 인식하며 익숙한 패턴을 사용하여 이미지를 완성합니다. 이 과정의 복잡성은 아직 이해하기 어렵습니다. 특정 패턴 인식 작업에 대한 인간의 성능과 일치하거나 경우에 따라 초과 할 수있는 딥 러닝 알고리즘이 현재 존재한다는 것은 사실입니다. 그러나 이러한 알고리즘의 한 가지 단점은 학습 한 내용, 작동 방식 또는 실수를 할 때 이해하기 어렵다는 것입니다.

그라츠 대학교 컴퓨터 그래픽 및 비전 연구소의 Thomas Pock Technology (TU Graz)는 ERC 시작 보조금 프로젝트 HOMOVIS(컴퓨터 비전을 위한 상위 수준 이전 모델)의 일환으로 이 지식을 추적했습니다. 그는 시각 피질의 알려진 작동 모드를 어떻게 수학적 모델을 사용하여 계산하고 이미지 처리 응용 프로그램으로 전송할 수 있는지에 대한 질문에 집중적으로 연구했습니다. 41년간의 연구, XNUMX개의 출판물, XNUMX개의 특허를 통해 연구원과 그의 연구 그룹은 다양한 응용 분야에 대한 새로운 이미지 처리 알고리즘을 가능하게 하는 광범위한 지식을 축적했습니다.

게슈탈트 심리학의 주요 창립자는 이러한 법칙을 사용하여 자극과 감각적 인상이 결합되어 큰 전체를 이루는 인간 시각의 과정을 설명했습니다. “인간은 이미 단일 지점이나 주관적인 윤곽 (환상적인 윤곽)을 기반으로 부분적이거나 불완전한 물체를 정확하게 인식 할 수 있습니다. 인간의 뇌는 누락 된 이미지 정보를 자동으로 채 웁니다. 예를 들어 가능한 한 부드러운 곡선을 통해 점을 연결합니다.”라고 Pock은 말합니다. Pock과 그의 팀은 최소 곡률의 곡선을 계산하는 데 사용할 수있는 수학자 Leonhard Euler의 유명한 방정식 인 Euler의 탄성 곡선을 기반으로 한 수학적 모델을 사용하여 처음으로 모양 찾기 현상을 설명했습니다.

고차원 공간에서의 표현

Euler의 탄성 곡선을 기반으로 Pock의 그룹은 특정 곡률 의존 이미지 처리 문제를 해결하기 위해 새로운 알고리즘을 개발했습니다. 결과적으로 (2D) 이미지와 그 특징이 1959 차원 공간에서 데이터 포인트로 표현되면 솔루션이 훨씬 쉬워집니다. "XNUMX 차원에서 우리는 개체 가장자리의 방향과 함께 추가 변수를 얻습니다."라고 Pock은 설명합니다. 이것 역시 인간의 시각을 모델로하여 시각 피질이 방향에 민감한 레이어로 구성되어 있다는 것을 XNUMX 년에 확립 한 두 노벨상 수상자 David Hubel과 Torsten Wiesel의 선구적인 작업으로 거슬러 올라갑니다.

수학적 및 컴퓨터 과학의 관점에서 볼 때이 XNUMX 차원 임베딩의 가장 큰 장점은 볼록 최적화 알고리즘을 사용하여 이미지 처리 문제를 해결할 수 있다는 것입니다. 수학적 최적화에서 볼록 최적화와 비 볼록 최적화 사이의 경계는 풀 수있는 문제와 풀 수없는 문제를 구별하는 큰 장벽으로 간주됩니다. “따라서 우리는 주어진 모든 입력 이미지에 대해 최상의 이미지를 계산할 수 있습니다. 물론 사용 된 수학적 모델에 대해서만 가능합니다.”라고 Pock은 말합니다.

미래 전망

이제 Pock과 그의 팀은 시각 피질의 알려진 구조적 특성을 결합하는 개선 된 모델을 연구하고 있습니다. 딥 러닝 알고리즘. 목표는 현재의 딥 러닝 알고리즘만큼 성능을 ​​발휘할뿐만 아니라 학습 된 구조에 대한 더 깊은 이해를 허용하는 모델을 개발하는 것입니다. 컴퓨터 단층 촬영 및 자기 공명 영상의 재구성에서 초기 성공은 이미 달성되었습니다. “새로 개발 된 알고리즘을 사용하면 기록되는 데이터가 적어도 최고 품질로 이미지를 재구성 할 수 있습니다. 이로 인해 시간과 컴퓨팅 성능이 절약되고 비용도 절약됩니다.”라고 Pock은 설명합니다.