Animate-X 的核心创新在于其增强的运动表示能力。该框架引入了一个名为 Pose Indicator 的新组件,它通过隐式和显式两种方式从驾驶视频中捕获全面的运动模式。隐式方法利用 CLIP 视觉特征来提取运动的本质,包括整体运动模式和运动之间的时间关系。显式方法通过模拟推理过程中可能出现的潜在输入来增强潜在扩散模型 (LDM) 的泛化能力。
Animate-X 的架构建立在 LDM 之上,使其能够处理各种角色类型,统称为“X”。这种多功能性使该框架不仅可以为人体制作动画,还可以为拟人化角色制作动画,大大扩展了其在创意产业中的潜在应用。
为了评估 Animate-X 的性能,研究人员引入了新的动画拟人化基准 (A^2Bench)。该基准测试包含 500 个拟人化角色以及相应的舞蹈视频,为评估该框架为各种角色类型制作动画的能力提供了全面的数据集。
Animate-X 的主要功能包括:
- 通用角色动画:能够从单个参考图像为人类和拟人化角色制作动画。
- 增强的运动表示:利用具有隐式和显式特征的姿势指示器来捕捉全面的运动模式。
- 强大的泛化能力:即使仅在人类数据集上进行训练,也能在各种角色类型中表现出色。
- 身份保存:在整个动画过程中擅长保持参考角色的外观和身份。
- 运动一致性:制作具有高时间连续性和精确、生动动作的动画。
- 姿势稳健性:处理具有挑战性的姿势,包括转身动作和从坐到站的过渡站立。
- 长视频生成:能够生成延长的动画序列,同时保持一致性。
- 与各种角色源的兼容性:成功地为流行游戏、卡通片甚至真实人物中的角色制作动画。
- 夸张的动作支持:能够生成富有表现力和夸张的人物动作,同时保留角色的原始外观。
- CLIP 集成:利用 CLIP 视觉功能来改进运动理解和表示。