关键功能

通过图像、文本或视频生成交互式世界
相机运动量化,实现稳定训练和用户友好交互
用于无限自回归生成的蒙版视频扩散变换器 (MVDT)
无需训练的抗伪影机制 (AAM),可增强视觉质量
基于随机微分方程(TTS-SDE)的时间旅行采样,实现精确控制
对抗性蒸馏和缓存机制的协同优化以实现模型加速
高保真交互式视频世界生成
在高质量的世界探索数据集 Sekai 上进行训练

Yume 的技术框架包含多个关键组件。摄像机运动量化将摄像机轨迹转换为直观的方向控制和旋转动作,并映射到键盘输入。带有帧记忆的蒙版视频扩散变换器 (MVDT) 支持无限自回归生成,并在长序列中保持一致性。此外,Yume 还采用了无需训练的抗伪影机制 (AAM) 和基于随机微分方程的时间旅行采样 (TTS-SDE) 来增强视觉质量和控制力。


Yume 使用高质量的世界探索数据集 Sekai 进行训练,并在各种场景和应用中取得了显著的成果。该模型的资源(包括数据、代码库和模型权重)均可在 GitHub 上获取。Yume 将每月更新,以实现其最初的目标,即利用各种输入创建交互式、逼真且动态的世界。该模型的潜在应用包括图像和视频编辑、虚拟现实等等。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!