Model dan Algoritma Matematik Baru untuk Pemprosesan Imej Pintar

Kemas kini: 2 Jun 2021
Model dan Algoritma Matematik Baru untuk Pemprosesan Imej Pintar

Menggunakan korteks visual sebagai model dalam otak manusia, kumpulan penyelidikan yang diketuai oleh pemenang anugerah ERC Thomas Pock telah mengembangkan model dan algoritma matematik baru sebagai asas untuk program pemprosesan gambar yang lebih pantas dan lebih pintar.

Korteks visual kami dapat menangkap gambar dan mengenali objek dalam masa beberapa saat, walaupun ia hampir tidak dapat dilihat atau hanya berpecah belah. Salah satu sebab untuk prestasi puncak yang hebat ini ialah seni bina lapisan hierarki korteks visual yang sangat efisien. Ia menyaring maklumat visual, mengenali hubungan, dan melengkapkan gambar menggunakan corak biasa. Proses di sebalik ini masih sukar difahami dalam kerumitannya. Memang benar bahawa algoritma pembelajaran mendalam kini wujud yang dapat menandingi atau, dalam beberapa kes, melebihi prestasi manusia pada tugas pengecaman corak tertentu. Namun, satu kelemahan algoritma ini adalah sukar memahami apa yang telah mereka pelajari, bagaimana ia berfungsi, atau ketika mereka melakukan kesalahan.

Thomas Pock dari Institut Grafik Komputer dan Visi di Universiti Graz Teknologi (TU Graz) mengikuti jejak pengetahuan ini sebagai sebahagian daripada projek Geran Permulaan ERC HOMOVIS (Model Terdahulu Tahap Tinggi untuk Penglihatan Komputer). Beliau bekerja secara intensif mengenai persoalan bagaimana mod operasi korteks visual yang diketahui boleh dikira menggunakan model matematik dan dipindahkan ke aplikasi pemprosesan imej. Selepas lima tahun penyelidikan, 41 penerbitan, dan satu paten kemudian, penyelidik dan kumpulan penyelidikannya telah mengumpul pengetahuan luas yang membolehkan algoritma pemprosesan imej baharu untuk pelbagai jenis aplikasi.

Pengasas utama psikologi Gestalt menggunakan undang-undang ini untuk cuba menjelaskan proses penglihatan manusia, di mana rangsangan dan kesan deria disatukan untuk membentuk keseluruhan yang besar. “Manusia sudah dapat mengenali objek separa atau tidak lengkap berdasarkan titik tunggal atau kontur subjektif (kontur ilusi). Otak manusia secara automatik mengisi maklumat gambar yang hilang. Contohnya, dengan menyambungkan titik melalui lekukan yang sehalus mungkin, ”kata Pock. Pock dan pasukannya menerangkan fenomena penemuan bentuk ini untuk pertama kalinya menggunakan model matematik berdasarkan lengkung elastik Euler - persamaan terkenal oleh ahli matematik Leonhard Euler yang dapat digunakan untuk mengira lengkung kelengkungan minimum.

Perwakilan di ruang dimensi yang lebih tinggi

Berdasarkan keluk elastik Euler, kumpulan Pock mengembangkan algoritma baru untuk menyelesaikan masalah pemprosesan gambar yang bergantung pada kelengkungan tertentu. Oleh itu, penyelesaiannya lebih mudah jika gambar (2D) dan ciri-cirinya ditunjukkan sebagai titik data dalam ruang tiga dimensi. "Pada dimensi ketiga, kita mendapatkan pemboleh ubah tambahan dengan orientasi tepi objek," jelas Pock. Ini juga dimodelkan pada penglihatan manusia dan kembali ke karya perintis dua pemenang Nobel, David Hubel dan Torsten Wiesel, yang menetapkan pada tahun 1959 bahawa korteks visual terdiri dari lapisan sensitif orientasi.

Dari sudut matematik dan sains komputer, kelebihan terbesar dari penyisipan tiga dimensi ini ialah masalah pemprosesan imej dapat diselesaikan dengan menggunakan algoritma pengoptimuman cembung. Dalam pengoptimuman matematik, batas antara pengoptimuman cembung dan bukan cembung dianggap sebagai penghalang besar yang membezakan penyelesaian dengan masalah yang tidak dapat diselesaikan. "Oleh itu, kita dijamin dapat menghitung gambar terbaik untuk semua gambar input yang diberikan - tentu saja, hanya berkenaan dengan model matematik yang digunakan," kata Pock.

Tinjauan Masa Depan

Sekarang, Pock dan pasukannya mengusahakan model yang lebih baik yang menggabungkan sifat struktur yang diketahui dari korteks visual dengan pembelajaran mendalam algoritma. Tujuannya adalah untuk mengembangkan model yang berfungsi serta algoritma pembelajaran mendalam semasa, tetapi juga memungkinkan pemahaman yang lebih mendalam mengenai struktur yang dipelajari. Kejayaan awal telah dicapai dalam pembinaan semula tomografi komputer dan gambar resonans magnetik. “Dengan algoritma yang baru dikembangkan, sekarang mungkin untuk merekonstruksi gambar dengan kualiti tertinggi walaupun kurang data yang direkam. Ini menjimatkan masa dan kuasa pengkomputeran, dan dengan itu juga menelan kos, ”jelas Pock.