FlexiAct 的流程由两个主要组件组成:RefAdapter 和 FAE(频率感知动作提取)。RefAdapter 经过训练可以调节任意帧,以实现跨不同空间结构的转换;而 FAE 则旨在在去噪过程中直接实现动作提取。FAE 会根据时间步长动态调整视频 token 对频率感知嵌入的注意力权重,从而促进动作提取。这种方法使 FlexiAct 能够有效地将动作迁移到具有不同布局、骨架和视点的主体,使其成为一款多功能的视频生成工具。
FlexiAct 的实验结果证明了其能够有效地将动作迁移到具有不同布局、骨架和视点的主体。该方法能够生成具有精确动作控制、空间结构自适应和一致性保持的高质量视频。FlexiAct 能够处理异构场景,使其成为视频编辑、动画和虚拟现实等应用领域的宝贵工具。凭借其强大的功能和多功能性,FlexiAct 有望彻底改变视频生成和编辑领域。

