Model dan Algoritma Matematika Baru untuk Pemrosesan Gambar Cerdas

Pembaruan: 2 Juni 2021
Model dan Algoritma Matematika Baru untuk Pemrosesan Gambar Cerdas

Menggunakan korteks visual sebagai model di otak manusia, kelompok riset yang dipimpin oleh pemenang penghargaan ERC Thomas Pock telah mengembangkan model dan algoritma matematika baru sebagai dasar untuk program pemrosesan gambar yang lebih cepat dan lebih cerdas.

Korteks visual kita dapat menangkap gambar dan mengenali objek dalam sepersekian detik, bahkan jika objek tersebut hampir tidak terlihat atau hanya terpisah-pisah. Salah satu alasan untuk kinerja puncak yang fantastis ini adalah arsitektur lapisan hierarkis korteks visual yang sangat efisien. Ini menyaring informasi visual, mengenali koneksi, dan melengkapi gambar menggunakan pola yang sudah dikenal. Proses di balik ini masih sulit dipahami dalam kompleksitasnya. Memang benar bahwa algoritma pembelajaran mendalam sekarang ada yang dapat menandingi atau, dalam beberapa kasus, melebihi kinerja manusia pada tugas pengenalan pola tertentu. Salah satu kelemahan dari algoritma ini, bagaimanapun, adalah sulit untuk memahami apa yang telah mereka pelajari, bagaimana mereka bekerja, atau ketika mereka membuat kesalahan.

Thomas Pock dari Institut Grafik dan Visi Komputer di Universitas Graz Teknologi (TU Graz) mengikuti jejak pengetahuan ini sebagai bagian dari proyek Hibah Awal ERC miliknya, HOMOVIS (Model Sebelumnya Tingkat Tinggi untuk Computer Vision). Dia bekerja secara intensif pada pertanyaan tentang bagaimana mode operasi korteks visual yang diketahui dapat dihitung menggunakan model matematika dan ditransfer ke aplikasi pemrosesan gambar. Setelah lima tahun melakukan penelitian, 41 publikasi, dan satu paten kemudian, peneliti dan kelompok penelitiannya telah mengumpulkan pengetahuan luas yang memungkinkan algoritma pemrosesan gambar baru untuk berbagai macam aplikasi.

Pendiri utama psikologi Gestalt menggunakan hukum-hukum ini untuk mencoba menjelaskan proses penglihatan manusia, di mana rangsangan dan kesan sensorik disatukan untuk membentuk keseluruhan yang besar. “Manusia sudah dapat mengenali objek sebagian atau tidak lengkap dengan benar berdasarkan titik tunggal atau kontur subjektif (kontur ilusi). Otak manusia secara otomatis mengisi informasi gambar yang hilang. Misalnya, dengan menghubungkan titik-titik melalui kurva yang sehalus mungkin,” kata Pock. Pock dan timnya menggambarkan fenomena penemuan bentuk untuk pertama kalinya menggunakan model matematika berdasarkan kurva elastis Euler—persamaan terkenal oleh ahli matematika Leonhard Euler yang dapat digunakan untuk menghitung kurva kelengkungan minimum.

Representasi dalam ruang dimensi yang lebih tinggi

Berdasarkan kurva elastis Euler, kelompok Pock mengembangkan algoritma baru untuk memecahkan masalah pemrosesan gambar yang bergantung pada kelengkungan tertentu. Akibatnya, solusinya menjadi lebih mudah jika gambar (2D) dan fitur-fiturnya direpresentasikan sebagai titik data dalam ruang tiga dimensi. “Di dimensi ketiga, kami mendapatkan variabel tambahan dengan orientasi tepi objek,” jelas Pock. Ini juga dimodelkan pada penglihatan manusia dan kembali ke karya perintis dua peraih Nobel, David Hubel dan Torsten Wiesel, yang didirikan pada tahun 1959 bahwa korteks visual terdiri dari lapisan orientasi-sensitif.

Dari sudut pandang matematika dan ilmu komputer, keuntungan terbesar dari penyisipan tiga dimensi ini adalah bahwa masalah pemrosesan gambar dapat diselesaikan dengan menggunakan algoritma optimasi cembung. Dalam optimasi matematis, batas antara optimasi cembung dan non-cembung dianggap sebagai penghalang besar yang membedakan masalah yang dapat dipecahkan dari yang tidak dapat dipecahkan. “Dengan demikian, kami dijamin dapat menghitung gambar terbaik untuk semua gambar masukan yang diberikan—tentu saja, hanya dengan memperhatikan model matematika yang digunakan,” kata Pock.

Outlook Masa Depan

Sekarang, Pock dan timnya sedang mengerjakan model yang ditingkatkan yang menggabungkan sifat struktural yang diketahui dari korteks visual dengan belajar mendalam algoritma. Tujuannya adalah untuk mengembangkan model yang berkinerja sebaik algoritma pembelajaran mendalam saat ini, tetapi juga memungkinkan pemahaman yang lebih dalam tentang struktur yang dipelajari. Keberhasilan awal telah dicapai dalam rekonstruksi tomografi komputer dan gambar resonansi magnetik. “Dengan algoritme yang baru dikembangkan, sekarang dimungkinkan untuk merekonstruksi gambar dengan kualitas tertinggi meskipun lebih sedikit data yang direkam. Ini menghemat waktu dan daya komputasi, dan juga biaya,” jelas Pock.