该架构是一个带有混合线性扩散变压器的 2.6B 参数开源世界模型。它结合了逐帧门控 DeltaNet 和用于长上下文建模的 Softmax 注意力,使用双分支相机控制来实现 6-DoF 轨迹遵循,并应用带有长视频细化器的两级管道。这些设计选择有助于 SANA-WM 在比典型短格式视频生成器更长的序列上保持时间一致性和视觉质量。
SANA-WM 对于构建可探索的人工智能世界、机器人模拟器、摄像头控制视频工具或实体代理数据引擎的研究人员和开发人员来说非常有价值。其高效的训练和推理配置文件使其引人注目,因为它使用具有公制尺度姿势监督的公共视频数据,而不是仅依赖于大量封闭数据集。该版本提供了论文、代码和模型链接,因此它被列为免费的开源世界模型项目。

