Một khuôn khổ mới để tạo ra chuyển động của con người từ lời nhắc ngôn ngữ

Việc sử dụng khả năng chi trả của cảnh làm biểu diễn trung gian sẽ nâng cao khả năng tạo chuyển động trên các điểm chuẩn (a) HumanML3D và (b) NHÂN LỰC, đồng thời tăng cường đáng kể khả năng khái quát hóa của mô hình cho (c) các tình huống không nhìn thấy được. Tín dụng: Wang và cộng sự.

Các mô hình dựa trên máy học có thể tự động tạo ra nhiều loại nội dung khác nhau ngày càng trở nên tiên tiến trong vài năm qua. Những khuôn khổ này đã mở ra những khả năng mới cho việc làm phim và biên soạn bộ dữ liệu để huấn luyện các thuật toán robot.

Mặc dù một số mô hình hiện có có thể tạo ra hình ảnh thực tế hoặc nghệ thuật dựa trên mô tả văn bản, việc phát triển AI có thể tạo ra video về hình người chuyển động dựa trên hướng dẫn của con người cho đến nay vẫn tỏ ra khó khăn hơn. Trong một bài báo được xuất bản trước trên máy chủ arXiv và được trình bày tại Hội nghị IEEE/CVF về Thị giác máy tính và Nhận dạng mẫu năm 2024, các nhà nghiên cứu tại Viện Nghiên cứu Bắc Kinh Công nghệ, BIGAI và Đại học Bắc Kinh giới thiệu một khuôn khổ mới đầy hứa hẹn có thể giải quyết nhiệm vụ này một cách hiệu quả.

Yixin Zhu, đồng tác giả của cuốn giấy, nói với Tech Xplore.

“Một số công trình về robot cũng đã chứng minh tác động tích cực của khả năng chi trả đối với khả năng khái quát hóa của mô hình, điều này truyền cảm hứng cho chúng tôi sử dụng khả năng chi trả của cảnh làm đại diện trung gian cho nhiệm vụ phức tạp này.”

Khung mới do Zhu và các đồng nghiệp của ông giới thiệu được xây dựng dựa trên mô hình tổng quát mà họ đã giới thiệu vài năm trước, được gọi là NHÂN LỰC. Các nhà nghiên cứu đặt mục tiêu cải thiện khả năng khái quát hóa tốt các vấn đề mới của mô hình này, chẳng hạn như tạo ra các chuyển động thực tế để đáp lại lời nhắc “nằm xuống sàn” sau khi học cách tạo ra chuyển động “nằm xuống giường” một cách hiệu quả.

“Phương pháp của chúng tôi diễn ra theo hai giai đoạn: Mô hình khuếch tán khả năng chi trả (ADM) để dự đoán bản đồ khả năng chi trả và Mô hình khuếch tán khả năng chi trả cho chuyển động (AMDM) để tạo ra chuyển động của con người từ mô tả và khả năng chi trả được sản xuất trước,” Siyuan Huang, đồng tác giả tác giả bài báo giải thích.

“Bằng cách sử dụng các bản đồ khả năng chi trả bắt nguồn từ trường khoảng cách giữa các khớp xương của con người và bề mặt cảnh, mô hình của chúng tôi liên kết một cách hiệu quả nền tảng cảnh 3D và tạo chuyển động có điều kiện vốn có trong nhiệm vụ này.”

Phương pháp được đề xuất trước tiên dự đoán bản đồ khả năng chi trả cảnh từ mô tả ngôn ngữ bằng cách sử dụng Mô hình khuếch tán khả năng chi trả (ADM) và sau đó tạo ra các chuyển động tương tác của con người với Mô hình khuếch tán khả năng chi trả cho chuyển động (AMDM) được điều chỉnh trên bản đồ khả năng chi trả được sản xuất trước. Tín dụng: Wang và cộng sự.

Khung mới của nhóm có nhiều ưu điểm đáng chú ý so với các phương pháp được giới thiệu trước đây để tạo ra chuyển động của con người được hướng dẫn bằng ngôn ngữ. Đầu tiên, các biểu diễn mà nó dựa vào sẽ phân định rõ ràng khu vực được liên kết với các mô tả/lời nhắc của người dùng. Điều này cải thiện khả năng tiếp đất 3D của nó, cho phép nó tạo ra các chuyển động thuyết phục với dữ liệu huấn luyện hạn chế.

Wei Liang, đồng tác giả của bài báo, cho biết: “Các bản đồ được mô hình của chúng tôi sử dụng cũng cung cấp sự hiểu biết sâu sắc về sự tương tác hình học giữa các cảnh và chuyển động, hỗ trợ việc khái quát hóa nó trên các hình dạng cảnh khác nhau”. “Đóng góp quan trọng trong công việc của chúng tôi nằm ở việc tận dụng khả năng trình bày rõ ràng về khả năng chi trả của cảnh để tạo điều kiện thuận lợi cho việc tạo chuyển động của con người được hướng dẫn bằng ngôn ngữ trong cảnh 3D.”

Nghiên cứu này của Zhu và các đồng nghiệp của ông chứng minh tiềm năng của các mô hình tạo chuyển động có điều kiện tích hợp khả năng chi trả và biểu diễn cảnh. Nhóm nghiên cứu hy vọng rằng mô hình của họ và cách tiếp cận cơ bản của nó sẽ khơi dậy sự đổi mới trong cộng đồng nghiên cứu AI sáng tạo.

Mô hình mới mà họ phát triển có thể sớm được hoàn thiện hơn nữa và áp dụng cho nhiều vấn đề khác nhau trong thế giới thực. Ví dụ, nó có thể được sử dụng để sản xuất phim hoạt hình chân thực bằng AI hoặc tạo dữ liệu đào tạo tổng hợp thực tế cho các ứng dụng robot.

Zhu cho biết thêm: “Nghiên cứu trong tương lai của chúng tôi sẽ tập trung vào việc giải quyết tình trạng khan hiếm dữ liệu thông qua các chiến lược thu thập và chú thích được cải tiến cho dữ liệu tương tác giữa con người và cảnh vật”. “Chúng tôi cũng sẽ nâng cao hiệu quả suy luận của mô hình phổ biến của mình để tăng cường khả năng ứng dụng thực tế của nó.”