该框架采用了一种增强了全上下文姿态注入机制的扩散Transformer(DiT)架构,允许模型在每一帧生成过程中关注整个姿态序列,以实现卓越的时空推理。与依赖局部姿态线索或简单通道连接的传统方法不同,SCAIL 的偏移 RoPE 集成和上下文学习能够捕捉全局运动依赖关系、高级语义和合理的人体结构,即使在身份切换、极端姿势或跨域转移等具有挑战性的场景中也是如此。该管线在精心策划的 25 万个高质量、富含运动的视频-姿态对数据集上进行了训练——包括 2 万个多人片段和 4K 个高动态样本——确保了多样性、质量和鲁棒性,推动角色动画迈向专业可靠性,而无需昂贵的动作捕捉设备。
<>
SCAIL 在各种应用中表现出色,从单角色舞蹈和格斗编排到多人场景和风格化的动漫渲染,在运动遵循性、结构完整性和伪影(如肢体撕裂或闪烁)减少方面优于 Wan Animate 等前辈。其开源性质,模型可在 Hugging Face 和 ComfyUI 中使用,使高质量动画的普及惠及创作者、视觉特效艺术家和开发人员,并支持即将到来的 720p 分辨率等增强功能。通过解决姿态表示和控制注入的关键瓶颈,SCAIL 为可控的 AI 视频生成设定了新的基准,在各种体型、视觉域和复杂动态中提供了自然、视觉吸引人的结果。

