インテリジェントな画像処理のための新しい数学的モデルとアルゴリズム

更新日: 2 年 2021 月 XNUMX 日
インテリジェントな画像処理のための新しい数学的モデルとアルゴリズム

ERC 賞を受賞した Thomas Pock が率いる研究グループは、人間の脳のモデルとして視覚野を使用して、より高速でインテリジェントな画像処理プログラムの基礎として新しい数学的モデルとアルゴリズムを開発しました。

私たちの視覚野は、かろうじて見えたり断片的であっても、ほんの一瞬で画像をキャプチャしてオブジェクトを認識することができます。 この素晴らしいピーク パフォーマンスの XNUMX つの理由は、視覚皮質の非常に効率的な階層構造です。 視覚情報をフィルタリングし、つながりを認識し、なじみのあるパターンを使用して画像を完成させます。 この背後にあるプロセスは、その複雑さのためにまだほとんど理解されていません。 確かに、特定のパターン認識タスクで人間のパフォーマンスに匹敵するか、場合によってはそれを超える深層学習アルゴリズムが存在します。 ただし、これらのアルゴリズムの欠点の XNUMX つは、学習した内容、それらがどのように機能するか、またはいつ間違いを犯したかを理解するのが難しいことです。

Thomas Pock 氏、グラーツ大学コンピューター グラフィックス アンド ビジョン研究所 テクノロジー (グラーツ工科大学) は、ERC Starting Grant プロジェクト HOMOVIS (コンピューター ビジョンのための高レベル事前モデル) の一環として、この知識を追跡していました。彼は、視覚野の既知の動作モードを数学モデルを使用してどのように計算し、画像処理アプリケーションに転送できるかという問題に集中的に取り組みました。 41 年間の研究、XNUMX 件の出版物、および XNUMX 件の特許取得を経て、研究者とその研究グループは、さまざまなアプリケーション向けの新しい画像処理アルゴリズムを可能にする広範な知識を蓄積しました。

ゲシュタルト心理学の主要な創始者は、これらの法則を使用して、刺激と感覚的印象がまとめられて大きな全体を形成する人間の視覚のプロセスを説明しようとしました。 「人間は、単一点または主観的輪郭 (錯覚的輪郭) に基づいて、部分的または不完全な対象をすでに正しく認識できます。 人間の脳は、不足している画像情報を自動的に埋めます。 たとえば、できるだけ滑らかな曲線でポイントを接続します」と Pock 氏は言います。 ポックと彼のチームは、オイラーの弾性曲線に基づく数学モデルを使用して、形状発見のこの現象を初めて説明しました。これは、最小曲率の曲線を計算するために使用できる、数学者レオンハルト オイラーによる有名な方程式です。

高次元空間での表現

オイラーの弾性曲線に基づいて、ポックのグループは、特定の曲率依存の画像処理問題を解決する新しいアルゴリズムを開発しました。 したがって、(2D) 画像とその特徴が 1959 次元空間のデータ ポイントとして表される場合、ソリューションはさらに簡単になります。 「XNUMX 次元では、オブジェクトのエッジの向きを含む追加の変数を取得します」と Pock は説明します。 これも人間の視覚をモデルにしており、XNUMX 人のノーベル賞受賞者、David Hubel と Torsten Wiesel の先駆的な研究にさかのぼります。

数学的およびコンピュータ サイエンスの観点から、この XNUMX 次元埋め込みの最大の利点は、凸最適化アルゴリズムを使用して画像処理の問題を解決できることです。 数理最適化では、凸最適化と非凸最適化の境界が、解決可能な問題と解決不可能な問題を区別する大きな障壁と見なされます。 「したがって、与えられたすべての入力画像に対して最適な画像を計算できることが保証されています。もちろん、使用された数学的モデルに関してのみです」と Pock 氏は言います。

将来展望

現在、ポックと彼のチームは、視覚皮質の既知の構造的特性と 深い学習 アルゴリズム。 目標は、現在の深層学習アルゴリズムと同様に機能するモデルを開発することですが、学習した構造をより深く理解することもできます。 コンピューター断層撮影と磁気共鳴画像の再構成では、初期の成功がすでに達成されています。 「新しく開発されたアルゴリズムにより、記録されるデータが少なくても、最高品質の画像を再構成できるようになりました。 これにより、時間と計算能力が節約されるため、コストも節約できます」と Pock 氏は説明します。