言語プロンプトから人間の動作を生成する新しいフレームワーク |シュンロンウェイ株式会社

中間表現としてシーンアフォーダンスを採用すると、ベンチマーク (a) HumanML3D および (b) HUMANISE でのモーション生成機能が強化され、(c) 目に見えないシナリオに一般化するモデルの能力が大幅に向上します。クレジット: Wang et al.

さまざまな種類のコンテンツを自律的に生成できる機械学習ベースのモデルは、ここ数年でますます進歩しています。これらのフレームワークは、映画製作とロボットアルゴリズムをトレーニングするためのデータセットの編集に新たな可能性をもたらしました。

既存のモデルの中には、テキストの説明に基づいて現実的または芸術的な画像を生成できるものもありますが、人間の指示に基づいて動く人物のビデオを生成できる AI の開発は、これまでのところより困難であることがわかっています。サーバー上で事前に公開された論文で arXivの 北京大学の研究者らは、2024 年のコンピュータービジョンとパターン認識に関する IEEE/CVF 会議で発表しました。テクノロジー、BIGAI、北京大学は、この課題に効果的に取り組むことができる有望な新しいフレームワークを導入しました。

「私たちの前作『HUMANIZE』での初期の実験では、タスクをシーンのグラウンディングと条件付きモーション生成に分解することで、3 段階のフレームワークが XNUMXD シーンでの言語ガイドによる人間のモーション生成を強化できることが示されました。」と共著者の Yixin Zhu 氏は述べています。論文、とTech Exploreに語った。

「ロボット工学のいくつかの研究では、アフォーダンスがモデルの一般化能力にプラスの影響を与えることも実証されており、この複雑なタスクの中間表現としてシーンアフォーダンスを採用するきっかけとなっています。」

Zhu 氏と彼の同僚によって導入された新しいフレームワークは、数年前に導入された HUMANIZE と呼ばれる生成モデルに基づいています。研究者らは、たとえば「ベッドに横になる」モーションを効果的に生成する方法を学習した後、「床に横になる」というプロンプトに応じて現実的なモーションを作成するなど、新しい問題に対してうまく一般化できるこのモデルの能力を向上させることに着手しました。

「私たちの手法は 2 つの段階で展開されます。アフォーダンスマップを予測するためのアフォーダンス拡散モデル (ADM) と、記述と事前に生成されたアフォーダンスから人間の動きを生成するためのアフォーダンスから動きへの拡散モデル (AMDM) です」と Siyuan Huang 氏は共同で述べています。論文の著者はこう説明した。

「人間の骨格関節とシーン表面の間の距離フィールドから得られたアフォーダンスマップを利用することで、私たちのモデルは 3D シーンのグラウンディングとこのタスクに固有の条件付きモーション生成を効果的にリンクさせます。」

提案手法は、まずアフォーダンス拡散モデル（ADM）を使用して言語記述からシーンのアフォーダンスマップを予測し、次に事前に作成されたアフォーダンスマップに基づいて条件付けされたアフォーダンスからモーションへの拡散モデル（AMDM）を使用してインタラクティブな人間の動作を生成します。クレジット: Wang et al.

チームの新しいフレームワークには、以前に導入された言語ガイドによる人間の動作生成のアプローチに比べて、さまざまな注目すべき利点があります。まず、依存する表現は、ユーザーの説明/プロンプトに関連付けられた領域を明確に描写します。これにより 3D グラウンディング機能が向上し、限られたトレーニングデータでも説得力のあるモーションを作成できるようになります。

「私たちのモデルで利用されているマップは、シーンとモーションの間の幾何学的相互作用についての深い理解を提供し、多様なシーン幾何学全体での一般化を支援します」と論文の共著者である Wei Liang 氏は述べています。「私たちの研究の主な貢献は、明示的なシーンアフォーダンス表現を活用して、3D シーンでの言語ガイドによる人間のモーション生成を容易にすることにあります。」

Zhu 氏らによるこの研究は、シーンのアフォーダンスと表現を統合する条件付きモーション生成モデルの可能性を実証しています。研究チームは、彼らのモデルとその基礎となるアプローチが生成 AI 研究コミュニティ内でイノベーションを引き起こすことを期待しています。

彼らが開発した新しいモデルは間もなくさらに完成され、現実世界のさまざまな問題に適用される可能性があります。たとえば、AI を使用してリアルなアニメーション映画を制作したり、ロボット工学アプリケーション用のリアルな合成トレーニングデータを生成したりするために使用できます。

「私たちの将来の研究は、人間とシーンのインタラクションデータの収集および注釈戦略を改善することで、データ不足に対処することに焦点を当てます」と Zhu 氏は付け加えました。「また、拡散モデルの推論効率を向上させ、実用性を強化していきます。」