RealisDance-DiT 的一大显著优势在于它能够泛化到各种动画挑战中。该模型采用三种姿势条件——HaMeR、DWPose 和 SMPL-CS——并与参考图像一起编码,以指导动画过程。通过巧妙地整合姿势和参考补丁器以及改进的空间移位旋转位置嵌入 (RoPE),该系统实现了角色运动与环境因素(例如光照和物体操控)之间的卓越匹配。大量的定性和定量评估表明,RealisDance-DiT 的表现优于 Animate-X、ControlNeXt 等领先方法以及 ViggleAI 等商业产品,尤其是在涉及复杂姿势、背景动态和多角色交互的场景中。该模型擅长保留物体的连续性并生成符合物理规律的动作,例如篮球的弹跳或扫帚的扫动。
RealisDance-DiT 的性能已在多个基准测试中得到验证,包括 TikTok 数据集、UBC 时尚视频数据集以及新推出的 RealisDance-Val 数据集,后者涵盖了现实世界中广泛的动画挑战。在所有这些基准测试中,RealisDance-DiT 在 FVD 和 FID 等关键指标中始终排名第一或第二,表明其卓越的视频质量和真实感。该模型的开源特性及其强大的泛化能力使其成为研究人员、动画师和开发者寻求创建高质量、可控的角色动画(用于娱乐、虚拟制作或研究目的)的宝贵工具。
主要功能包括:
- 高度可控的角色动画,支持罕见姿势和风格化角色
- 以物理真实感处理复杂的光照、动态场景和角色-物体交互
- 只需进行少量架构修改,即可实现高效的微调和强大的泛化能力
- 集成多种姿势条件和参考图像,实现精确的运动引导
- 在标准和自定义动画基准测试中均表现出色
- 开源且可扩展,可用于研究和生产用途