关键功能

具有镜像双骨干架构的高质量 5B 参数音频模型
无需明确面部边界框即可实现精确的唇形同步
支持逼真的多说话人和多轮视频对话
生成同步的背景音乐和音效
预训练模型和推理代码的开源发布

这项尖端技术自然支持多说话人和多轮对话,从而能够在视频中创建复杂、逼真的对话场景。除了唇形同步,Ovi 还能够生成与视觉动作直接对应的同步背景音乐和音效,增强了整体的视听体验。该工具通过提供完整的预训练模型权重和推理代码,以支持进一步的开发和应用,从而面向研究和开源社区。


Ovi 的演示剪辑经过调整以适应 480p 以实现最佳存储效率,它们使用来自公共领域或人工智能生成内容的参考图像来展示其功能。开发者强调了道德使用,并邀请联系以解决与所用图像相关的任何疑虑。作为一个最先进的研究项目,Ovi 推动了音频和视频融合技术的界限,以促进创新的多媒体生成工作流程。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!