Các nhà nghiên cứu Tinh chỉnh kiểm soát quá trình tạo hình ảnh AI

Cập nhật: ngày 1 tháng 2021 năm XNUMX
Các nhà nghiên cứu Tinh chỉnh kiểm soát quá trình tạo hình ảnh AI

Các nhà nghiên cứu từ Đại học Bang North Carolina đã phát triển một phương pháp hiện đại mới để kiểm soát cách hệ thống trí tuệ nhân tạo (AI) tạo ra hình ảnh. Công trình có ứng dụng cho các lĩnh vực từ chế tạo robot tự động đến đào tạo AI.

Vấn đề là một loại nhiệm vụ AI được gọi là tạo hình ảnh có điều kiện, trong đó các hệ thống AI tạo ra hình ảnh đáp ứng một số điều kiện cụ thể. Ví dụ, một hệ thống có thể được đào tạo để tạo ra hình ảnh gốc của mèo hoặc chó, tùy thuộc vào con vật mà người dùng yêu cầu. Nhiều kỹ thuật gần đây đã xây dựng dựa trên điều này để kết hợp các điều kiện liên quan đến bố cục hình ảnh. Điều này cho phép người dùng chỉ định loại đối tượng nào họ muốn xuất hiện ở những vị trí cụ thể trên màn hình. Ví dụ, bầu trời có thể ở trong một hộp, cây có thể ở trong hộp khác, dòng suối có thể ở trong một hộp riêng biệt, v.v.

Công việc mới được xây dựng dựa trên các kỹ thuật đó để cung cấp cho người dùng nhiều quyền kiểm soát hơn đối với các hình ảnh thu được và giữ lại một số đặc điểm nhất định trên một loạt hình ảnh.

Tianfu Wu, đồng tác giả của bài báo về công trình này và là trợ lý giáo sư kỹ thuật máy tính tại NC State cho biết: “Phương pháp của chúng tôi có thể cấu hình lại rất cao. “Giống như các cách tiếp cận trước đây, của chúng tôi cho phép người dùng để hệ thống tạo ra một hình ảnh dựa trên một tập hợp các điều kiện cụ thể. Nhưng của chúng tôi cũng cho phép bạn giữ lại hình ảnh đó và thêm vào nó. Ví dụ: người dùng có thể yêu cầu AI tạo cảnh núi. Sau đó, người dùng có thể yêu cầu hệ thống thêm người trượt tuyết vào cảnh đó ”.

Ngoài ra, cách tiếp cận mới cho phép người dùng để AI thao tác các yếu tố cụ thể để chúng được nhận dạng giống nhau, nhưng đã di chuyển hoặc thay đổi theo một cách nào đó. Ví dụ: AI có thể tạo ra một loạt hình ảnh cho thấy những người trượt tuyết quay về phía người xem khi họ di chuyển qua phong cảnh.

Wu nói: “Một ứng dụng cho việc này là giúp các robot tự hành 'tưởng tượng' kết quả cuối cùng sẽ như thế nào trước khi chúng bắt đầu một nhiệm vụ cụ thể. “Bạn cũng có thể sử dụng hệ thống để tạo hình ảnh cho việc đào tạo AI. Vì vậy, thay vì biên dịch hình ảnh từ các nguồn bên ngoài, bạn có thể sử dụng hệ thống này để tạo hình ảnh nhằm đào tạo các hệ thống AI khác ”.

Các nhà nghiên cứu đã thử nghiệm cách tiếp cận mới của họ bằng cách sử dụng tập dữ liệu COCO-Stuff và tập dữ liệu Visual Genome. Dựa trên các thước đo tiêu chuẩn về chất lượng hình ảnh, phương pháp mới vượt trội hơn các kỹ thuật tạo hình ảnh hiện đại trước đây.

“Bước tiếp theo của chúng tôi là xem liệu chúng tôi có thể mở rộng tác phẩm này sang video và hình ảnh ba chiều hay không,” Wu nói.

Đào tạo cho cách tiếp cận mới đòi hỏi một lượng sức mạnh tính toán hợp lý; các nhà nghiên cứu đã sử dụng một máy trạm 4 GPU. Tuy nhiên, việc triển khai hệ thống ít tốn kém về mặt tính toán hơn.

“Chúng tôi thấy rằng một GPU cung cấp cho bạn tốc độ gần như thời gian thực, "Wu nói