关键功能

从一张图像和摄像机轨迹生成 720p 分钟级视频。
采用 2.6B 参数混合线性扩散变压器架构。
结合门控 DeltaNet 和 softmax 注意力,实现内存高效的长上下文建模。
通过双分支相机控制设计,支持精确的六自由度相机控制。
应用具有长视频细化的两阶段生成管道。
通过公共视频剪辑进行训练,并进行公制尺度的相机姿势监督。
目标是交互式世界建模、具体人工智能和摄像机控制的视频生成。
提供公共论文、代码和模型资源以供研究使用。

该架构是一个带有混合线性扩散变压器的 2.6B 参数开源世界模型。它结合了逐帧门控 DeltaNet 和用于长上下文建模的 Softmax 注意力,使用双分支相机控制来实现 6-DoF 轨迹遵循,并应用带有长视频细化器的两级管道。这些设计选择有助于 SANA-WM 在比典型短格式视频生成器更长的序列上保持时间一致性和视觉质量。


SANA-WM 对于构建可探索的人工智能世界、机器人模拟器、摄像头控制视频工具或实体代理数据引擎的研究人员和开发人员来说非常有价值。其高效的训练和推理配置文件使其引人注目,因为它使用具有公制尺度姿势监督的公共视频数据,而不是仅依赖于大量封闭数据集。该版本提供了论文、代码和模型链接,因此它被列为免费的开源世界模型项目。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!