UniAnimate-DiT

UniAnimate-DiT 的一项关键创新在于它能够通过简单而有效的特征级连接和求和运算，整合外观和姿势信息。这种设计选择增强了参考图像和生成动画之间的对齐，从而产生了高保真输出，保留了身份和精细细节。该模型基于约 10,000 个分辨率为 480p 的人体舞蹈视频的多样化数据集进行训练，使其能够泛化到各种动作、光照条件和背景。在推理过程中，UniAnimate-DiT 可以无缝地将其输出提升至 720p，从而在不牺牲时间连贯性或视觉质量的情况下，拓展其在更高分辨率视频生成方面的实际应用。

UniAnimate-DiT 通过重叠滑动窗口策略支持长视频生成，该策略通过精心管理窗口之间的帧特征来保持扩展序列之间的一致性。此功能使该模型特别适合制作冗长、连贯的动画，例如角色驱动的故事叙述、教育内容和虚拟化身。开源版本包含训练和推理代码，可供研究人员、开发者和创意专业人士使用，帮助他们突破人体动画技术的界限。 UniAnimate-DiT 凭借其高效的架构、强大的泛化能力和实用的可扩展性，为可控的高质量人体图像动画树立了新的标准。

主要功能包括：

基于 LoRA 的高效微调，可降低内存开销
带有堆叠 3D 卷积层的轻量级姿态编码器，可实现精确的运动提取
外观和姿态的特征级集成，可增强对齐
从 480p 训练推广到 720p 推理，以实现高分辨率输出
支持使用重叠滑动窗口策略生成长视频
用于训练和推理的开源代码库

Subscribe to the AI Search Newsletter