HunyuanCustom 是一个多模态定制视频生成框架，它强调主体一致性，同时支持图像、音频、视频和文本条件。基于 HunyuanVideo，我们的模型首先解决了图文条件生成任务，引入了基于 LLaVA 的图文融合模块，以增强多模态理解；同时，引入了图像身份增强模块，利用时间序列连接来增强跨帧的身份特征。这允许生成基于文本、图像、音频和视频输入的主体一致性

HunyuanCustom | 寻找最新最热门的视频AI | 浏览最全面的AI数据库

HunyuanCustom 是一个多模态定制视频生成框架，它强调主体一致性，同时支持图像、音频、视频和文本条件。基于 HunyuanVideo，我们的模型首先解决了图文条件生成任务，引入了基于 LLaVA 的图文融合模块，以增强多模态理解；同时，引入了图像身份增强模块，利用时间序列连接来增强跨帧的身份特征。这允许生成基于文本、图像、音频和视频输入的主体一致性视频。 \nHunyuanCustom 引入了基于 LLaVA 的图文融合模块，以促进图像与文本的交互，从而将图像中的身份信息有效地融入文本描述中。此外，我们还提出了一个图像身份增强模块，该模块沿时间轴连接图像信息，并利用视频模型高效的时间建模能力来增强整个视频中的主体身份。这使得生成高质量视频成为可能，并能精确控制图像、音频和视频的条件。 \nHunyuanCustom 还支持音频驱动和视频驱动的视频定制，从而实现更灵活、更可控的音频驱动人体动画和视频驱动的视频生成。该框架可以使用图像中指定的 ID 替换或添加视频中的指定对象，从而在视频编辑、动画和虚拟现实领域实现广泛的应用。凭借其先进的特性和能力，HunyuanCustom 有望彻底改变视频生成和编辑领域。

HunyuanCustom

关键功能

Subscribe to the AI Search Newsletter