HunyuanCustom 引入了基于 LLaVA 的图文融合模块,以促进图像与文本的交互,从而将图像中的身份信息有效地融入文本描述中。此外,我们还提出了一个图像身份增强模块,该模块沿时间轴连接图像信息,并利用视频模型高效的时间建模能力来增强整个视频中的主体身份。这使得生成高质量视频成为可能,并能精确控制图像、音频和视频的条件。
HunyuanCustom 还支持音频驱动和视频驱动的视频定制,从而实现更灵活、更可控的音频驱动人体动画和视频驱动的视频生成。该框架可以使用图像中指定的 ID 替换或添加视频中的指定对象,从而在视频编辑、动画和虚拟现实领域实现广泛的应用。凭借其先进的特性和能力,HunyuanCustom 有望彻底改变视频生成和编辑领域。