Ovi 是一个先进的音视频生成系统，仅从文本或文本与图像的组合作为输入，即可创建同步的视频剪辑。它包含一个基于镜像双骨干架构的高质量预训练 50 亿参数音频模型，以及一个 10 亿参数的融合分支。该系统擅长为视频内容生成精确的唇形同步，而无需明确的面部边界框，这完全是通过数据驱动的学习方法实现的。这项尖端技术自然支持多说话人和多轮对话，从而能够在视频中创建复

Ovi | 寻找最新最热门的多媒体AI | 浏览最全面的AI数据库

Ovi 是一个先进的音视频生成系统，仅从文本或文本与图像的组合作为输入，即可创建同步的视频剪辑。它包含一个基于镜像双骨干架构的高质量预训练 50 亿参数音频模型，以及一个 10 亿参数的融合分支。该系统擅长为视频内容生成精确的唇形同步，而无需明确的面部边界框，这完全是通过数据驱动的学习方法实现的。 这项尖端技术自然支持多说话人和多轮对话，从而能够在视频中创建复杂、逼真的对话场景。除了唇形同步，Ovi 还能够生成与视觉动作直接对应的同步背景音乐和音效，增强了整体的视听体验。该工具通过提供完整的预训练模型权重和推理代码，以支持进一步的开发和应用，从而面向研究和开源社区。 Ovi 的演示剪辑经过调整以适应 480p 以实现最佳存储效率，它们使用来自公共领域或人工智能生成内容的参考图像来展示其功能。开发者强调了道德使用，并邀请联系以解决与所用图像相关的任何疑虑。作为一个最先进的研究项目，Ovi 推动了音频和视频融合技术的界限，以促进创新的多媒体生成工作流程。

Ovi

关键功能

Subscribe to the AI Search Newsletter