Uni3C 的一项关键创新是其全局 3D 世界引导系统,该系统在推理过程中将场景几何形状和人体角色对齐到统一的坐标空间中。这种对齐方式可以实现无缝、3D 一致的视频生成,其中摄像机轨迹和人体运动相互依存,并且可以一起控制。该系统使用场景点云进行摄像机控制,并使用 SMPL-X 角色进行人体动画,通过二维关键点和刚性变换连接它们之间的关系。这种方法可以实现复杂的运动传递,包括参考运动来自不同视频或领域(例如动画和真实世界素材)的场景。Uni3C 在具有挑战性的场景中展现出卓越的泛化能力和鲁棒性,包括能够控制精细的手部动作并适应动态摄像机视点。
广泛的基准测试表明,Uni3C 在摄像机可控性和人体运动质量方面均显著优于现有方法。该框架已在新开发的数据集(包含具有挑战性的摄像机运动和复杂的人体动作)以及具有多种摄像机轨迹的分布外测试集上得到验证。Uni3C 的模块化设计使其与各种基础视频模型兼容,支持灵活的集成和下游应用。虽然 Uni3C 在统一控制方面表现出色,但当人体运动与环境约束相冲突时,它确实存在局限性,可能会导致视觉伪影。尽管如此,它的贡献标志着可控视频生成的重大进步,为更复杂的多模式内容创作铺平了道路。
主要功能包括:
- 即插即用的 PCDController,可使用点云实现精确的 3D 摄像头控制
- 统一的全局 3D 世界引导,实现一致的摄像头和人体运动控制
- 支持跨不同领域和视频类型的复杂运动传递
- 兼容基础视频扩散模型,可灵活集成
- 在具有挑战性的基准测试和新数据集上展现出卓越的性能
- 模块化设计,可独立或联合训练摄像头和人体运动模块