Новая платформа для генерации человеческих движений на основе языковых подсказок

Использование доступности сцены в качестве промежуточного представления расширяет возможности генерации движения в тестах (a) HumanML3D и (b) HUMANISE, а также значительно повышает способность модели обобщать (c) невидимые сценарии. Кредит: Ван и др.

За последние несколько лет модели на основе машинного обучения, которые могут автономно генерировать различные типы контента, становятся все более продвинутыми. Эти структуры открыли новые возможности для кинопроизводства и сбора наборов данных для обучения алгоритмов робототехники.

Хотя некоторые существующие модели могут генерировать реалистичные или художественные изображения на основе текстовых описаний, разработка ИИ, который может генерировать видео движущихся человеческих фигур на основе человеческих инструкций, до сих пор оказалась более сложной задачей. В статье, предварительно опубликованной на сервере ArXiv и представленный на конференции IEEE/CVF по компьютерному зрению и распознаванию образов 2024 года исследователями Пекинского института Технологии, BIGAI и Пекинский университет представляют новую многообещающую структуру, которая может эффективно решить эту задачу.

«Ранние эксперименты в нашей предыдущей работе, HUMANIZE, показали, что двухэтапная структура может улучшить генерацию человеческих движений в 3D-сценах с помощью языка, разлагая задачу на обоснование сцены и генерацию условного движения», — Исинь Чжу, соавтор исследования. бумага, рассказал Tech Xplore.

«Некоторые работы в области робототехники также продемонстрировали положительное влияние доступности на способность модели к обобщению, что вдохновляет нас использовать доступность сцены в качестве промежуточного представления для этой сложной задачи».

Новая структура, представленная Чжу и его коллегами, основана на генеративной модели, которую они представили несколько лет назад, под названием ГУМАНИЗАЦИЯ. Исследователи намеревались улучшить способность этой модели хорошо обобщать новые проблемы, например, создавая реалистичные движения в ответ на подсказку «ляг на пол», после того как они научились эффективно генерировать движение «лежа на кровати».

«Наш метод разворачивается в два этапа: модель диффузии возможностей (ADM) для прогнозирования карты возможностей и модель диффузии возможностей в движении (AMDM) для генерации движения человека на основе описания и предварительно созданной доступности», — Сиюань Хуан, соавтор - пояснил автор статьи.

«Используя карты возможностей, полученные на основе поля расстояний между суставами человеческого скелета и поверхностями сцены, наша модель эффективно связывает заземление 3D-сцены и генерацию условного движения, присущую этой задаче».

Предлагаемый метод сначала прогнозирует карту возможностей сцены на основе языкового описания с использованием модели диффузии возможностей (ADM), а затем генерирует интерактивные движения человека с помощью модели диффузии возможностей в движении (AMDM), обусловленной заранее созданной картой возможностей. Кредит: Ван и др.

Новая структура команды имеет ряд заметных преимуществ по сравнению с ранее представленными подходами для генерации движений человека на основе языка. Во-первых, представления, на которые он опирается, четко очерчивают область, связанную с описаниями/подсказками пользователя. Это улучшает возможности трехмерного заземления, позволяя создавать убедительные движения с ограниченными тренировочными данными.

«Карты, используемые в нашей модели, также предлагают глубокое понимание геометрического взаимодействия между сценами и движениями, помогая его обобщению на различные геометрии сцен», — сказал Вэй Лян, соавтор статьи. «Ключевой вклад нашей работы заключается в использовании явного представления возможностей сцены для облегчения генерации движений человека с языковым управлением в 3D-сценах».

Это исследование Чжу и его коллег демонстрирует потенциал моделей генерации условного движения, которые объединяют возможности и представления сцены. Команда надеется, что их модель и лежащий в ее основе подход вызовут инновации в исследовательском сообществе генеративного ИИ.

Разработанную ими новую модель вскоре можно будет усовершенствовать и применить к различным реальным проблемам. Например, его можно использовать для создания реалистичных анимационных фильмов с использованием искусственного интеллекта или для создания реалистичных синтетических обучающих данных для приложений робототехники.

«Наши будущие исследования будут сосредоточены на решении проблемы нехватки данных за счет улучшения стратегий сбора и аннотирования данных о взаимодействии человека с местом действия», — добавил Чжу. «Мы также повысим эффективность вывода нашей модели диффузии, чтобы повысить ее практическую применимость».

Новая платформа для генерации человеческих движений на основе языковых подсказок.