Kerangka kerja baru untuk menghasilkan gerakan manusia dari petunjuk bahasa

Pembaruan: 24 April 2024
Kerangka kerja baru untuk menghasilkan gerakan manusia dari petunjuk bahasa
Menggunakan keterjangkauan adegan sebagai representasi perantara akan meningkatkan kemampuan menghasilkan gerakan pada tolok ukur (a) HumanML3D dan (b) HUMANISE, dan secara signifikan meningkatkan kemampuan model untuk menggeneralisasi ke (c) skenario yang tidak terlihat. Kredit: Wang dkk.

Model berbasis pembelajaran mesin yang dapat menghasilkan berbagai jenis konten secara mandiri telah semakin maju selama beberapa tahun terakhir. Kerangka kerja ini telah membuka kemungkinan baru untuk pembuatan film dan pengumpulan kumpulan data untuk melatih algoritma robotika.


Meskipun beberapa model yang ada dapat menghasilkan gambar realistis atau artistik berdasarkan deskripsi teks, pengembangan AI yang dapat menghasilkan video sosok manusia bergerak berdasarkan instruksi manusia sejauh ini terbukti lebih menantang. Dalam makalah yang diterbitkan sebelumnya di server arXiv dan dipresentasikan pada Konferensi IEEE/CVF tentang Visi Komputer dan Pengenalan Pola 2024, para peneliti di Institut Teknologi Beijing Teknologi, BIGAI, dan Universitas Peking memperkenalkan kerangka kerja baru yang menjanjikan dan dapat mengatasi tugas ini secara efektif.

“Eksperimen awal dalam karya kami sebelumnya, HUMANIZE, menunjukkan bahwa kerangka kerja dua tahap dapat meningkatkan generasi gerakan manusia yang dipandu bahasa dalam adegan 3D, dengan menguraikan tugas menjadi landasan adegan dan generasi gerakan bersyarat,” Yixin Zhu, salah satu penulis makalah ini kertas, kata Tech Xplore.

“Beberapa karya di bidang robotika juga telah menunjukkan dampak positif dari keterjangkauan terhadap kemampuan generalisasi model, yang menginspirasi kami untuk menggunakan keterjangkauan pemandangan sebagai representasi perantara untuk tugas kompleks ini.”

Kerangka kerja baru yang diperkenalkan oleh Zhu dan rekan-rekannya didasarkan pada model generatif yang mereka perkenalkan beberapa tahun lalu, yang disebut HUMANIZE. Para peneliti mulai meningkatkan kemampuan model ini untuk menggeneralisasi permasalahan baru dengan baik, misalnya menciptakan gerakan realistis sebagai respons terhadap perintah “berbaring di lantai”, setelah belajar cara menghasilkan gerakan “berbaring di tempat tidur” secara efektif.

“Metode kami terbagi dalam dua tahap: Affordance Diffusion Model (ADM) untuk prediksi peta keterjangkauan dan Affordance-to-Motion Diffusion Model (AMDM) untuk menghasilkan gerakan manusia dari deskripsi dan keterjangkauan pra-produksi,” Siyuan Huang, rekan- penulis makalah, jelasnya.

“Dengan memanfaatkan peta keterjangkauan yang diperoleh dari bidang jarak antara sendi kerangka manusia dan permukaan pemandangan, model kami secara efektif menghubungkan landasan pemandangan 3D dan pembangkitan gerakan bersyarat yang melekat dalam tugas ini.”

Metode yang diusulkan pertama-tama memprediksi peta keterjangkauan pemandangan dari deskripsi bahasa menggunakan Affordance Diffusion Model (ADM) dan kemudian menghasilkan gerakan manusia interaktif dengan Affordance-to-Motion Diffusion Model (AMDM) yang dikondisikan pada peta keterjangkauan yang telah diproduksi sebelumnya. Kredit: Wang dkk.

Kerangka kerja baru tim ini memiliki berbagai keunggulan dibandingkan pendekatan yang diperkenalkan sebelumnya untuk menghasilkan gerakan manusia dengan panduan bahasa. Pertama, representasi yang diandalkannya menggambarkan dengan jelas wilayah yang terkait dengan deskripsi/perintah pengguna. Hal ini meningkatkan kemampuan landasan 3D, memungkinkannya menciptakan gerakan yang meyakinkan dengan data pelatihan yang terbatas.

“Peta yang digunakan oleh model kami juga menawarkan pemahaman mendalam tentang interaksi geometris antara pemandangan dan gerakan, membantu generalisasinya di berbagai geometri pemandangan,” kata Wei Liang, salah satu penulis makalah tersebut. “Kontribusi utama dari pekerjaan kami terletak pada pemanfaatan representasi keterjangkauan adegan eksplisit untuk memfasilitasi pembuatan gerakan manusia dengan panduan bahasa dalam adegan 3D.”

Studi yang dilakukan oleh Zhu dan rekan-rekannya ini menunjukkan potensi model pembangkitan gerak bersyarat yang mengintegrasikan keterjangkauan dan representasi pemandangan. Tim berharap model dan pendekatan yang mendasarinya akan memicu inovasi dalam komunitas riset AI generatif.

Model baru yang mereka kembangkan dapat segera disempurnakan dan diterapkan pada berbagai permasalahan dunia nyata. Misalnya, teknologi ini dapat digunakan untuk memproduksi film animasi realistis menggunakan AI atau untuk menghasilkan data pelatihan sintetis realistis untuk aplikasi robotika.

“Penelitian kami di masa depan akan fokus pada mengatasi kelangkaan data melalui peningkatan strategi pengumpulan dan anotasi untuk data interaksi manusia,” tambah Zhu. “Kami juga akan meningkatkan efisiensi inferensi model difusi kami untuk meningkatkan penerapan praktisnya.”