这项尖端技术自然支持多说话人和多轮对话,从而能够在视频中创建复杂、逼真的对话场景。除了唇形同步,Ovi 还能够生成与视觉动作直接对应的同步背景音乐和音效,增强了整体的视听体验。该工具通过提供完整的预训练模型权重和推理代码,以支持进一步的开发和应用,从而面向研究和开源社区。
Ovi 的演示剪辑经过调整以适应 480p 以实现最佳存储效率,它们使用来自公共领域或人工智能生成内容的参考图像来展示其功能。开发者强调了道德使用,并邀请联系以解决与所用图像相关的任何疑虑。作为一个最先进的研究项目,Ovi 推动了音频和视频融合技术的界限,以促进创新的多媒体生成工作流程。

