关键功能

基于多模态扩散变换器(MM-DiT)的模型
生成动态、情绪可控、多角色对话的视频
字符图像注入模块,实现动态运动和强字符一致性
音频情感模块 (AEM),用于细粒度和准确的情感风格控制
人脸感知音频适配器 (FAA),通过交叉注意力机制实现独立音频注入
支持多角色音频驱动动画
在动态、沉浸式场景中生成逼真的头像
适用于各种应用,包括视频制作、广告和社交媒体

HunyuanVideo-Avatar 的角色图像注入模块取代了传统的基于加法的角色条件反射方案,消除了训练和推理之间固有的条件不匹配问题。这确保了动态运动和高度的角色一致性。AEM 模块从情绪参考图像中提取情绪线索并将其传输到目标生成的视频中,从而实现细粒度且精准的情绪风格控制。 FAA 使用潜在级别人脸遮罩隔离音频驱动的角色,从而通过交叉注意力机制在多角色场景中实现独立的音频注入。


HunyuanVideo-Avatar 在基准数据集和新提出的野生数据集上超越了最先进的方法,能够在动态沉浸式场景中生成逼真的虚拟角色。该模型能够为多个角色生成高保真音频驱动的人体动画,使其成为视频制作、广告和社交媒体等各种应用领域的宝贵工具。其情绪可控和多角色功能也使其适用于娱乐、教育和医疗等行业。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!