关键功能

从一个模型中的文本生成同步视频和音频。
对文本、视频和音频令牌使用单流 Transformer 架构。
仅依靠自注意力来降低多流复杂性。
通过富有表现力的动作和语音对齐来瞄准以人为本的一代。
提供公共 GitHub 版本和现场演示以进行实验。
强调快速推理和实际部署的特点。
支持多语言生成场景。
将模型构建为开源生成基础模型。

该项目强调文本、视频和音频的统一标记序列,允许自注意力处理整个生成过程,而无需交叉注意力开销。该设计支持更简单的训练和推理堆栈,同时仍然致力于实现强大的视觉质量、语音对齐和运动真实感。结果被定位为一个模型,可以从研究扩展到可用的生产式生成工作流程。


公开演示和 GitHub 发布使探索该系统变得容易,该项目突出了基准性能、推理速度和多语言支持。这些特性共同使 daVinci-MagiHuman 成为跟踪开放视频生成、头部说话合成或人体动作和语音生成的任何人的一个值得注意的版本。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!