นักวิจัยปรับแต่งการควบคุมการสร้างภาพ AI อย่างละเอียด บริษัท ชุนหลงเว่ย จำกัด

นักวิจัยจาก North Carolina State University ได้พัฒนาวิธีการใหม่ในการควบคุมวิธีที่ระบบปัญญาประดิษฐ์ (AI) สร้างภาพ งานนี้มีแอปพลิเคชันสำหรับสาขาตั้งแต่หุ่นยนต์อัตโนมัติไปจนถึงการฝึกอบรม AI

ที่เป็นปัญหาคือประเภทของงาน AI ที่เรียกว่าการสร้างภาพตามเงื่อนไข ซึ่งระบบ AI สร้างภาพที่ตรงตามชุดเงื่อนไขเฉพาะ ตัวอย่างเช่น ระบบสามารถฝึกให้สร้างภาพต้นฉบับของแมวหรือสุนัขได้ ขึ้นอยู่กับสัตว์ที่ผู้ใช้ร้องขอ เทคนิคล่าสุดสร้างขึ้นจากสิ่งนี้เพื่อรวมเงื่อนไขเกี่ยวกับเลย์เอาต์รูปภาพ ซึ่งช่วยให้ผู้ใช้สามารถระบุประเภทของวัตถุที่ต้องการให้ปรากฏในตำแหน่งเฉพาะบนหน้าจอได้ ตัวอย่างเช่น ท้องฟ้าอาจไปในกล่องหนึ่ง ต้นไม้อาจอยู่ในอีกกล่องหนึ่ง ลำธารอาจอยู่ในกล่องแยกต่างหาก และอื่นๆ

งานใหม่นี้สร้างขึ้นจากเทคนิคเหล่านั้นเพื่อให้ผู้ใช้สามารถควบคุมภาพที่ได้ และรักษาคุณลักษณะบางอย่างไว้ในชุดของรูปภาพ

Tianfu Wu ผู้ร่วมเขียนบทความเกี่ยวกับงานนี้และผู้ช่วยศาสตราจารย์ด้านวิศวกรรมคอมพิวเตอร์ที่ NC State กล่าวว่า "แนวทางของเราสามารถกำหนดค่าใหม่ได้อย่างมาก “เช่นเดียวกับวิธีก่อนหน้านี้ ผู้ใช้ของเราให้ระบบสร้างภาพตามเงื่อนไขเฉพาะ แต่ของเรายังให้คุณเก็บภาพนั้นและเพิ่มเข้าไปได้ ตัวอย่างเช่น ผู้ใช้สามารถให้ AI สร้างฉากภูเขาได้ ผู้ใช้สามารถให้ระบบเพิ่มนักเล่นสกีลงในฉากนั้นได้”

นอกจากนี้ วิธีการใหม่นี้ยังช่วยให้ผู้ใช้สามารถให้ AI จัดการกับองค์ประกอบเฉพาะเพื่อให้ระบุได้ว่าเหมือนกัน แต่มีการเคลื่อนไหวหรือเปลี่ยนแปลงไปในทางใดทางหนึ่ง ตัวอย่างเช่น AI อาจสร้างชุดภาพที่แสดงว่านักเล่นสกีหันไปทางผู้ชมขณะเคลื่อนที่ผ่านแนวนอน

"แอปพลิเคชันหนึ่งสำหรับสิ่งนี้คือการช่วยให้หุ่นยนต์อิสระ 'จินตนาการ' ว่าผลลัพธ์สุดท้ายจะเป็นอย่างไรก่อนที่จะเริ่มงานที่กำหนด" Wu กล่าว “คุณยังสามารถใช้ระบบเพื่อสร้างภาพสำหรับการฝึกอบรม AI ดังนั้น แทนที่จะรวบรวมภาพจากแหล่งภายนอก คุณสามารถใช้ระบบนี้เพื่อสร้างภาพสำหรับฝึกระบบ AI อื่น ๆ ได้”

นักวิจัยได้ทดสอบแนวทางใหม่โดยใช้ชุดข้อมูล COCO-Stuff และชุดข้อมูล Visual Genome ด้วยการวัดคุณภาพของภาพมาตรฐาน วิธีการใหม่นี้มีประสิทธิภาพเหนือกว่าเทคนิคการสร้างสรรค์ภาพอันล้ำสมัยก่อนหน้านี้

“ขั้นตอนต่อไปของเราคือดูว่าเราสามารถขยายงานนี้ไปยังวิดีโอและภาพสามมิติได้หรือไม่” Wu กล่าว

การฝึกอบรมสำหรับแนวทางใหม่ต้องใช้กำลังในการคำนวณพอสมควร นักวิจัยใช้เวิร์กสเตชัน 4-GPU อย่างไรก็ตาม การปรับใช้ระบบนั้นมีค่าใช้จ่ายในการคำนวณน้อยกว่า

“เราพบว่าสิ่งหนึ่ง GPU ให้ความเร็วเกือบเรียลไทม์” Wu กล่าว