HunyuanVideo-Avatar 的角色图像注入模块取代了传统的基于加法的角色条件反射方案,消除了训练和推理之间固有的条件不匹配问题。这确保了动态运动和高度的角色一致性。AEM 模块从情绪参考图像中提取情绪线索并将其传输到目标生成的视频中,从而实现细粒度且精准的情绪风格控制。 FAA 使用潜在级别人脸遮罩隔离音频驱动的角色,从而通过交叉注意力机制在多角色场景中实现独立的音频注入。
HunyuanVideo-Avatar 在基准数据集和新提出的野生数据集上超越了最先进的方法,能够在动态沉浸式场景中生成逼真的虚拟角色。该模型能够为多个角色生成高保真音频驱动的人体动画,使其成为视频制作、广告和社交媒体等各种应用领域的宝贵工具。其情绪可控和多角色功能也使其适用于娱乐、教育和医疗等行业。