Yume 的技术框架包含多个关键组件。摄像机运动量化将摄像机轨迹转换为直观的方向控制和旋转动作,并映射到键盘输入。带有帧记忆的蒙版视频扩散变换器 (MVDT) 支持无限自回归生成,并在长序列中保持一致性。此外,Yume 还采用了无需训练的抗伪影机制 (AAM) 和基于随机微分方程的时间旅行采样 (TTS-SDE) 来增强视觉质量和控制力。
Yume 使用高质量的世界探索数据集 Sekai 进行训练,并在各种场景和应用中取得了显著的成果。该模型的资源(包括数据、代码库和模型权重)均可在 GitHub 上获取。Yume 将每月更新,以实现其最初的目标,即利用各种输入创建交互式、逼真且动态的世界。该模型的潜在应用包括图像和视频编辑、虚拟现实等等。