关键功能

采用 Apache 2.0 许可证的开源视频生成模型
高保真度的运动和强力的提示遵循能力
最高 5.4 秒、流畅的 30 帧/秒视频输出
基于非对称扩散 Transformer 架构的 100 亿参数扩散模型
通过新颖的视频 VAE 实现高效视频压缩
使用单个 T5-XXL 模型进行提示编码,并具有多模态自注意力
480p 基础模型,即将推出 720p 高清版本
提供托管游乐场供免费试用
应用于研究、产品开发、创意表达和机器人技术

Mochi 1 基于新颖的非对称扩散 Transformer 架构构建,是公开发布的最大规模的视频生成模型,拥有 100 亿个参数,从头开始训练。它采用高效的视频 VAE 来显著压缩视频数据,使模型能够在社区环境中有效运行。该模型的架构通过多模态自注意力机制巧妙地平衡了文本和视觉处理,确保生成的视频既具有视觉吸引力又在上下文上准确。此外,Mochi 1 使用单个 T5-XXL 语言模型来编码提示,通过 3D 注意力支持对长视频令牌上下文的复杂推理,以捕捉视频生成中的空间和时间维度。


Mochi 1 可通过托管的游乐场免费访问,用户可以在其中以 480p 分辨率试用根据自己的提示生成视频。Genmo 计划稍后发布高清版本,支持 720p 并具有增强的保真度和更流畅的运动。该项目被定位为研究和创意工具,可应用于娱乐、广告、教育、机器人技术和合成数据生成。正在进行的开发旨在改进图像到视频的功能以及对输出样式的精细控制。Mochi 1 强调了 Genmo 通过促进开放研究和围绕视频生成技术培育社区来推动 AI 驱动的创造力的使命。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!