Ein neues Framework zur Generierung menschlicher Bewegungen aus Sprachansagen

Der Einsatz von Szenen-Affordance als Zwischendarstellung verbessert die Bewegungsgenerierungsfähigkeiten bei den Benchmarks (a) HumanML3D und (b) HUMANISE und steigert die Fähigkeit des Modells zur Verallgemeinerung auf (c) unsichtbare Szenarien erheblich. Bildnachweis: Wang et al.

Auf maschinellem Lernen basierende Modelle, die verschiedene Arten von Inhalten autonom generieren können, haben sich in den letzten Jahren immer weiter entwickelt. Diese Frameworks haben neue Möglichkeiten für das Filmemachen und die Zusammenstellung von Datensätzen zum Trainieren von Robotikalgorithmen eröffnet.

Während einige bestehende Modelle realistische oder künstlerische Bilder auf der Grundlage von Textbeschreibungen erzeugen können, hat sich die Entwicklung einer KI, die auf der Grundlage menschlicher Anweisungen Videos von sich bewegenden menschlichen Figuren erstellen kann, bisher als schwieriger erwiesen. In einem vorab auf dem Server veröffentlichten Artikel arXiv und präsentiert auf der IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung 2024, Forscher am Beijing Institute of Technologie, BIGAI und die Peking-Universität stellen einen vielversprechenden neuen Rahmen vor, der diese Aufgabe effektiv bewältigen kann.

„Frühe Experimente in unserer früheren Arbeit HUMANIZE zeigten, dass ein zweistufiges Framework die sprachgesteuerte Erzeugung menschlicher Bewegungen in 3D-Szenen verbessern könnte, indem die Aufgabe in Szenenerdung und bedingte Bewegungserzeugung zerlegt wird“, sagte Yixin Zhu, Co-Autor der Studie Papier, sagte Tech Xplore.

„Einige Arbeiten in der Robotik haben auch den positiven Einfluss der Affordanz auf die Generalisierungsfähigkeit des Modells gezeigt, was uns dazu inspiriert, die Affordanz von Szenen als Zwischendarstellung für diese komplexe Aufgabe einzusetzen.“

Das von Zhu und seinen Kollegen eingeführte neue Framework basiert auf einem generativen Modell namens HUMANIZE, das sie vor einigen Jahren eingeführt haben. Die Forscher wollten die Fähigkeit dieses Modells verbessern, neue Probleme gut zu verallgemeinern, indem sie beispielsweise realistische Bewegungen als Reaktion auf die Aufforderung „Leg dich auf den Boden“ erzeugen, nachdem sie gelernt hatten, effektiv eine Bewegung „Leg dich auf das Bett“ zu erzeugen.

„Unsere Methode gliedert sich in zwei Phasen: ein Affordance Diffusion Model (ADM) zur Vorhersage von Affordance-Karten und ein Affordance-to-Motion Diffusion Model (AMDM) zur Generierung menschlicher Bewegung aus der Beschreibung und dem vorgefertigten Affordance“, sagt Siyuan Huang, Co- Autor des Papiers, erklärt.

„Durch die Verwendung von Affordanzkarten, die aus dem Distanzfeld zwischen menschlichen Skelettgelenken und Szenenoberflächen abgeleitet werden, verknüpft unser Modell effektiv die 3D-Szenenerdung und die bedingte Bewegungserzeugung, die dieser Aufgabe innewohnt.“

Die vorgeschlagene Methode sagt zunächst die Szenen-Affordance-Map aus der Sprachbeschreibung mithilfe des Affordance Diffusion Model (ADM) voraus und generiert dann interaktive menschliche Bewegungen mit dem Affordance-to-Motion Diffusion Model (AMDM), konditioniert auf der vorproduzierten Affordance-Map. Bildnachweis: Wang et al.

Das neue Framework des Teams bietet verschiedene bemerkenswerte Vorteile gegenüber zuvor eingeführten Ansätzen zur sprachgesteuerten Erzeugung menschlicher Bewegungen. Erstens grenzen die Darstellungen, auf denen es basiert, den Bereich klar ab, der mit den Beschreibungen/Eingabeaufforderungen eines Benutzers verknüpft ist. Dies verbessert seine 3D-Erdungsfähigkeiten und ermöglicht es ihm, mit begrenzten Trainingsdaten überzeugende Bewegungen zu erzeugen.

„Die von unserem Modell verwendeten Karten bieten auch ein tiefes Verständnis des geometrischen Zusammenspiels zwischen Szenen und Bewegungen und unterstützen dessen Verallgemeinerung über verschiedene Szenengeometrien hinweg“, sagte Wei Liang, Mitautor des Papiers. „Der Hauptbeitrag unserer Arbeit liegt in der Nutzung expliziter Szenen-Affordance-Darstellung, um die sprachgesteuerte Erzeugung menschlicher Bewegungen in 3D-Szenen zu erleichtern.“

Diese Studie von Zhu und seinen Kollegen zeigt das Potenzial von Modellen zur bedingten Bewegungserzeugung, die Szenenangebote und -darstellungen integrieren. Das Team hofft, dass sein Modell und der zugrunde liegende Ansatz Innovationen in der generativen KI-Forschungsgemeinschaft anregen werden.

Das von ihnen entwickelte neue Modell könnte bald weiter perfektioniert und auf verschiedene reale Probleme angewendet werden. Beispielsweise könnten damit realistische Animationsfilme mithilfe von KI produziert oder realistische synthetische Trainingsdaten für Robotikanwendungen generiert werden.

„Unsere zukünftige Forschung wird sich auf die Bewältigung der Datenknappheit durch verbesserte Erfassungs- und Annotationsstrategien für Daten zur Mensch-Szene-Interaktion konzentrieren“, fügte Zhu hinzu. „Wir werden auch die Inferenzeffizienz unseres Diffusionsmodells verbessern, um seine praktische Anwendbarkeit zu stärken.“