แบบจำลองทางคณิตศาสตร์และอัลกอริทึมใหม่สำหรับการประมวลผลภาพอัจฉริยะ

อัปเดต: 2 มิถุนายน 2021
แบบจำลองทางคณิตศาสตร์และอัลกอริทึมใหม่สำหรับการประมวลผลภาพอัจฉริยะ

กลุ่มวิจัยที่นำโดย Thomas Pock ผู้ชนะรางวัล ERC ได้ใช้ Visual cortex เป็นแบบจำลองในสมองของมนุษย์ ได้พัฒนาแบบจำลองทางคณิตศาสตร์และอัลกอริธึมใหม่ ๆ เพื่อเป็นพื้นฐานสำหรับโปรแกรมประมวลผลภาพที่รวดเร็วและชาญฉลาดยิ่งขึ้น

คอร์เทกซ์การมองเห็นของเราสามารถจับภาพและจดจำวัตถุได้ในเวลาเพียงเสี้ยววินาที แม้ว่าจะมองไม่เห็นหรือเป็นเพียงชิ้นเล็กๆ เท่านั้น เหตุผลหนึ่งที่ทำให้ประสิทธิภาพสูงสุดอันน่าทึ่งนี้คือสถาปัตยกรรมเลเยอร์แบบลำดับชั้นที่มีประสิทธิภาพสูงของคอร์เทกซ์การมองเห็น มันกรองข้อมูลภาพ รับรู้การเชื่อมต่อ และทำให้ภาพสมบูรณ์โดยใช้รูปแบบที่คุ้นเคย กระบวนการเบื้องหลังนี้ยังไม่ค่อยเข้าใจในความซับซ้อนของมัน เป็นความจริงที่ตอนนี้อัลกอริธึมการเรียนรู้เชิงลึกมีอยู่ซึ่งสามารถจับคู่หรือในบางกรณีเกินประสิทธิภาพของมนุษย์ในงานการจดจำรูปแบบบางอย่าง อย่างไรก็ตาม ข้อเสียอย่างหนึ่งของอัลกอริธึมเหล่านี้ก็คือ ยากที่จะเข้าใจสิ่งที่พวกเขาได้เรียนรู้ วิธีทำงาน หรือเมื่อทำผิดพลาด

Thomas Pock จากสถาบันคอมพิวเตอร์กราฟิกและวิสัยทัศน์แห่งมหาวิทยาลัยกราซ เทคโนโลยี (TU Graz) อยู่ระหว่างการตามรอยความรู้นี้ โดยเป็นส่วนหนึ่งของโครงการ ERC Getting Grant HOMOVIS (แบบจำลองระดับสูงสำหรับคอมพิวเตอร์วิทัศน์) เขาทำงานอย่างเข้มข้นกับคำถามที่ว่าโหมดการทำงานของคอร์เทกซ์การมองเห็นที่เป็นที่รู้จักนั้นสามารถคำนวณโดยใช้แบบจำลองทางคณิตศาสตร์และถ่ายโอนไปยังแอปพลิเคชันการประมวลผลภาพได้อย่างไร หลังจากห้าปีของการวิจัย สิ่งพิมพ์ 41 ฉบับ และสิทธิบัตรหนึ่งฉบับในเวลาต่อมา นักวิจัยและกลุ่มวิจัยของเขาได้สั่งสมความรู้ที่กว้างขวางซึ่งช่วยให้อัลกอริธึมการประมวลผลภาพใหม่สำหรับการใช้งานที่หลากหลาย

ผู้ก่อตั้งหลักของจิตวิทยาเกสตัลต์ใช้กฎหมายเหล่านี้เพื่อพยายามอธิบายกระบวนการของการมองเห็นของมนุษย์ ซึ่งรวมเอาสิ่งเร้าและความประทับใจทางประสาทสัมผัสเข้าด้วยกันเพื่อสร้างภาพรวมขนาดใหญ่ “มนุษย์สามารถจดจำวัตถุบางส่วนหรือไม่สมบูรณ์ได้อย่างถูกต้องแล้วโดยอาศัยจุดเดียวหรือรูปทรงส่วนตัว (รูปทรงลวงตา) สมองของมนุษย์จะเติมข้อมูลภาพที่หายไปโดยอัตโนมัติ ตัวอย่างเช่น โดยการเชื่อมต่อจุดต่างๆ ผ่านส่วนโค้งที่ราบเรียบที่สุด” ป็อคกล่าว Pock และทีมของเขาอธิบายปรากฏการณ์การค้นหารูปร่างนี้เป็นครั้งแรกโดยใช้แบบจำลองทางคณิตศาสตร์โดยอิงจากเส้นโค้งยืดหยุ่นของออยเลอร์ ซึ่งเป็นสมการที่มีชื่อเสียงโดยนักคณิตศาสตร์ Leonhard Euler ที่สามารถใช้คำนวณเส้นโค้งที่มีความโค้งต่ำสุดได้

การเป็นตัวแทนในพื้นที่มิติที่สูงขึ้น

ตามเส้นโค้งยืดหยุ่นของออยเลอร์ กลุ่มของ Pock ได้พัฒนาอัลกอริธึมใหม่เพื่อแก้ปัญหาการประมวลผลภาพที่ขึ้นอยู่กับความโค้ง ดังนั้น การแก้ปัญหาจะง่ายขึ้นหากภาพ (2D) และคุณลักษณะต่างๆ แสดงเป็นจุดข้อมูลในพื้นที่สามมิติ “ในมิติที่สาม เราได้ตัวแปรเพิ่มเติมที่มีการวางแนวขอบของวัตถุ” ป็อคอธิบาย สิ่งนี้ถูกจำลองขึ้นตามวิสัยทัศน์ของมนุษย์และย้อนกลับไปที่งานบุกเบิกของผู้ได้รับรางวัลโนเบลสองคนคือ David Hubel และ Torsten Wiesel ผู้ก่อตั้งในปี 1959 ว่าเยื่อหุ้มสมองมองเห็นประกอบด้วยชั้นที่ไวต่อการวางแนว

จากมุมมองทางคณิตศาสตร์และวิทยาการคอมพิวเตอร์ ข้อได้เปรียบที่ใหญ่ที่สุดของการฝังสามมิตินี้คือ ปัญหาการประมวลผลภาพสามารถแก้ไขได้โดยใช้อัลกอริธึมการปรับให้เหมาะสมนูน ในการเพิ่มประสิทธิภาพทางคณิตศาสตร์ ขอบเขตระหว่างการเพิ่มประสิทธิภาพนูนและไม่นูนถือเป็นอุปสรรคใหญ่ที่แยกความแตกต่างที่แก้ไขได้ออกจากปัญหาที่แก้ไม่ได้ “ดังนั้น เรารับประกันได้ว่าจะสามารถคำนวณภาพที่ดีที่สุดสำหรับภาพที่ป้อนเข้ามาทั้งหมด แน่นอนว่าต้องคำนึงถึงแบบจำลองทางคณิตศาสตร์เท่านั้น” Pock กล่าว

อนาคตของ Outlook

ตอนนี้ Pock และทีมของเขากำลังพัฒนาโมเดลที่ได้รับการปรับปรุง ซึ่งรวมคุณสมบัติทางโครงสร้างที่รู้จักของ Visual cortex เข้ากับ การเรียนรู้เชิงลึก อัลกอริทึม เป้าหมายคือการพัฒนาแบบจำลองที่ทำงานเช่นเดียวกับอัลกอริธึมการเรียนรู้เชิงลึกในปัจจุบัน แต่ยังช่วยให้เข้าใจโครงสร้างที่เรียนรู้อย่างลึกซึ้งยิ่งขึ้น ประสบความสำเร็จในขั้นต้นในการสร้างภาพเอกซเรย์คอมพิวเตอร์และภาพเรโซแนนซ์แม่เหล็กขึ้นใหม่ “ด้วยอัลกอริธึมที่พัฒนาขึ้นใหม่ ทำให้สามารถสร้างภาพใหม่ด้วยคุณภาพสูงสุดได้ แม้ว่าจะบันทึกข้อมูลน้อยลงก็ตาม ซึ่งช่วยประหยัดเวลาและกำลังในการประมวลผล และยังช่วยลดต้นทุนอีกด้วย” Pock อธิบาย