Mochi 1 基于新颖的非对称扩散 Transformer 架构构建,是公开发布的最大规模的视频生成模型,拥有 100 亿个参数,从头开始训练。它采用高效的视频 VAE 来显著压缩视频数据,使模型能够在社区环境中有效运行。该模型的架构通过多模态自注意力机制巧妙地平衡了文本和视觉处理,确保生成的视频既具有视觉吸引力又在上下文上准确。此外,Mochi 1 使用单个 T5-XXL 语言模型来编码提示,通过 3D 注意力支持对长视频令牌上下文的复杂推理,以捕捉视频生成中的空间和时间维度。
Mochi 1 可通过托管的游乐场免费访问,用户可以在其中以 480p 分辨率试用根据自己的提示生成视频。Genmo 计划稍后发布高清版本,支持 720p 并具有增强的保真度和更流畅的运动。该项目被定位为研究和创意工具,可应用于娱乐、广告、教育、机器人技术和合成数据生成。正在进行的开发旨在改进图像到视频的功能以及对输出样式的精细控制。Mochi 1 强调了 Genmo 通过促进开放研究和围绕视频生成技术培育社区来推动 AI 驱动的创造力的使命。

