Yume

Free 想象世界生成

网站推广

关键功能

通过图像、文本或视频生成交互式世界

相机运动量化，实现稳定训练和用户友好交互

用于无限自回归生成的蒙版视频扩散变换器 (MVDT)

无需训练的抗伪影机制 (AAM)，可增强视觉质量

基于随机微分方程（TTS-SDE）的时间旅行采样，实现精确控制

对抗性蒸馏和缓存机制的协同优化以实现模型加速

高保真交互式视频世界生成

在高质量的世界探索数据集 Sekai 上进行训练

Yume 的技术框架包含多个关键组件。摄像机运动量化将摄像机轨迹转换为直观的方向控制和旋转动作，并映射到键盘输入。带有帧记忆的蒙版视频扩散变换器 (MVDT) 支持无限自回归生成，并在长序列中保持一致性。此外，Yume 还采用了无需训练的抗伪影机制 (AAM) 和基于随机微分方程的时间旅行采样 (TTS-SDE) 来增强视觉质量和控制力。

Yume 使用高质量的世界探索数据集 Sekai 进行训练，并在各种场景和应用中取得了显著的成果。该模型的资源（包括数据、代码库和模型权重）均可在 GitHub 上获取。Yume 将每月更新，以实现其最初的目标，即利用各种输入创建交互式、逼真且动态的世界。该模型的潜在应用包括图像和视频编辑、虚拟现实等等。

在您的网站添加此徽章，以获得更多点赞并登上搜索结果顶部！

Yume

关键功能

Subscribe to the AI Search Newsletter