该框架引入了几个关键技术组件,以处理不对齐或部分可见的参考的困难情况。在训练期间,One-to-All Animation 将任务重新定义为一个自监督的图像外插(outpainting)问题,模型学会将多样化布局的参考输入转换为统一的遮挡输入表示,然后根据驱动姿态生成完整角色。一个专用的参考提取器模块用于从不完整或被遮挡的参考区域捕获全面的身份特征,并将这些特征通过混合参考融合注意力机制进行渐进式注入,该机制可以灵活地适应视频中可变的分辨率和动态序列长度。[web:1]
从控制和质量角度来看,One-to-All Animation 采用了一种身份鲁棒的姿态控制策略,它将外观与骨架结构分离,以减轻姿态过拟合,并在驱动运动与参考身体配置出现强烈偏差时减少伪影。此外,对于长视频生成,应用了令牌替换策略,有助于在扩展序列中保持时间一致性和避免身份漂移。作者报告的广泛实验表明,该方法在跨尺度视频动画、跨尺度图像姿态迁移和长篇视频生成方面优于现有的姿态驱动动画基线,使得单个角色参考能够令人信服地被不同空间尺度的多种动作所驱动。[web:1]

