언어 프롬프트에서 인간의 동작을 생성하는 새로운 프레임워크

장면 어포던스를 중간 표현으로 사용하면 벤치마크 (a) HumanML3D 및 (b) HUMANISE에서 모션 생성 기능이 향상되고 (c) 보이지 않는 시나리오로 일반화하는 모델의 능력이 크게 향상됩니다. 신용: 왕 외.

다양한 유형의 콘텐츠를 자율적으로 생성할 수 있는 기계 학습 기반 모델은 지난 몇 년 동안 점점 더 발전해 왔습니다. 이러한 프레임워크는 영화 제작과 로봇 공학 알고리즘 훈련을 위한 데이터세트 컴파일에 새로운 가능성을 열어주었습니다.

일부 기존 모델은 텍스트 설명을 기반으로 사실적이거나 예술적인 이미지를 생성할 수 있지만, 인간의 지시에 따라 움직이는 인물의 비디오를 생성할 수 있는 AI를 개발하는 것은 지금까지 더 어려운 것으로 판명되었습니다. 서버에 미리 게재된 논문에서 arXiv 2024년 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스에서 베이징 연구소 연구원들이 발표했습니다. Technology, BIGAI 및 Peking University는 이 작업을 효과적으로 해결할 수 있는 유망한 새로운 프레임워크를 소개합니다.

"이전 작업인 HUMANIZE의 초기 실험에서는 작업을 장면 기반 및 조건부 모션 생성으로 분해하여 3단계 프레임워크가 XNUMXD 장면에서 언어 기반 인간 모션 생성을 향상시킬 수 있음을 나타냈습니다."라고 공동 저자인 Yixin Zhu는 말했습니다. 논문은 Tech Xplore에 말했습니다.

"로봇 공학의 일부 작업에서는 모델의 일반화 능력에 대한 어포던스의 긍정적인 영향도 입증되었으며, 이는 우리가 이 복잡한 작업에 대한 중간 표현으로 장면 어포던스를 사용하도록 영감을 주었습니다."

Zhu와 그의 동료들이 도입한 새로운 프레임워크는 몇 년 전에 소개한 HUMANIZE라는 생성 모델을 기반으로 합니다. 연구자들은 "침대에 누워" 동작을 효과적으로 생성하는 방법을 학습한 후 "바닥에 누워"라는 프롬프트에 응답하여 사실적인 동작을 생성하는 등 새로운 문제 전반에 걸쳐 잘 일반화할 수 있는 이 모델의 능력을 향상시키기 시작했습니다.

"우리의 방법은 어포던스 맵 예측을 위한 어포던스 확산 모델(ADM)과 설명 및 사전 생성된 어포던스로부터 인간 동작을 생성하는 어포던스-모션 확산 모델(AMDM)의 두 단계로 전개됩니다." Siyuan Huang, 공동 논문의 저자가 설명했습니다.

"인간 골격 관절과 장면 표면 사이의 거리 필드에서 파생된 어포던스 맵을 활용하여 우리 모델은 이 작업에 내재된 3D 장면 접지 및 조건부 모션 생성을 효과적으로 연결합니다."

제안된 방법은 먼저 ADM(Affordance Diffusion Model)을 사용하여 언어 설명에서 장면 어포던스 맵을 예측한 다음, 미리 생성된 어포던스 맵을 조건으로 하는 AMDM(Affordance-to-Motion Diffusion Model)을 사용하여 대화형 인간 모션을 생성합니다. 신용: 왕 외.

팀의 새로운 프레임워크는 언어 기반 인간 동작 생성을 위해 이전에 도입된 접근 방식에 비해 다양한 주목할만한 이점을 가지고 있습니다. 첫째, 의존하는 표현은 사용자의 설명/프롬프트와 관련된 영역을 명확하게 묘사합니다. 이를 통해 3D 접지 기능이 향상되어 제한된 훈련 데이터로 설득력 있는 동작을 생성할 수 있습니다.

논문의 공동 저자인 Wei Liang은 "우리 모델에서 활용되는 맵은 장면과 모션 사이의 기하학적 상호작용에 대한 깊은 이해를 제공하여 다양한 장면 기하학에 대한 일반화를 돕습니다."라고 말했습니다. "우리 작업의 주요 기여는 3D 장면에서 언어 기반 인간 모션 생성을 촉진하기 위해 명시적인 장면 어포던스 표현을 활용하는 것입니다."

Zhu와 그의 동료들의 이 연구는 장면 어포던스와 표현을 통합하는 조건부 모션 생성 모델의 잠재력을 보여줍니다. 팀은 그들의 모델과 그 기본 접근 방식이 생성 AI 연구 커뮤니티 내에서 혁신을 촉발할 수 있기를 바라고 있습니다.

그들이 개발한 새로운 모델은 곧 더욱 완벽해지며 다양한 실제 문제에 적용될 수 있습니다. 예를 들어 AI를 사용하여 사실적인 애니메이션 영화를 제작하거나 로봇 공학 애플리케이션을 위한 사실적인 합성 교육 데이터를 생성하는 데 사용할 수 있습니다.

Zhu는 "우리의 향후 연구는 인간과 장면의 상호 작용 데이터에 대한 향상된 수집 및 주석 전략을 통해 데이터 부족 문제를 해결하는 데 중점을 둘 것"이라고 덧붙였습니다. “또한 확산 모델의 추론 효율성을 높여 실제 적용성을 강화할 것입니다.”