ACTalker 架构的核心是一个并行的曼巴结构,它具有多个分支,每个分支专用于不同的控制信号,例如音频或面部动作。每个分支在时间和空间维度上操纵特征标记,确保输入信号能够独立地影响特定的面部区域。所有分支都采用门控机制,提供灵活动态的控制,实现单信号模式和多信号模式之间的无缝切换。为了进一步避免冲突并确保自然协调,ACTalker 引入了遮罩丢弃策略,使每个控制信号仅关注其指定的面部区域。这种方法确保音频驱动的唇部运动和动作驱动的表情在生成的视频中保持独特而又协调一致。
ACTalker 集成了选择性状态空间模型 (SSM),可以高效地聚合来自各种信号的情境信息,取代传统的注意力机制,从而提高计算效率。该模型的设计还保留了源对象的身份,将身份特征与噪声融合,以在生成的帧之间保持一致的外观。该系统使用 VAE 编码器进行图像编码,使用 Whisper 进行音频嵌入,并使用运动编码器提取面部运动线索。大量实验和消融研究表明,ACTalker 能够生成高度逼真、时间连贯的头部特写视频,并且在单信号和多信号控制场景中均优于现有方法。这使得它成为任何寻求精确、富有表现力且可控的说话头部生成的人的强大工具。
主要功能包括:
- 用于说话头部生成的端到端视频扩散框架
- 支持多信号(音频和面部运动)和单信号控制
- 具有区域特定控制分支的并行曼巴结构
- 用于灵活信号管理的门控机制
- 用于防止控制冲突并增强真实感的掩模丢弃策略
- 用于高效上下文聚合的选择性状态空间模型
- 用于一致主体外观的身份保存