关键功能

根据单个图像或自由格式文本提示生成逼真、交互式和连续的世界。
支持基于键盘的探索,具有直观的 WASD 控制,用于导航生成的视频世界。
基于联合时空通道建模构建的长视频生成框架,用于连贯的、扩展的序列。
统一的上下文压缩和线性注意力,用于在控制内存和计算成本的同时保持视频质量。
由双向注意力蒸馏驱动的实时流式加速策略,以实现快速、响应迅速的推理。
增强的文本嵌入方案,可稳定长期生成并减少扩展交互中的错误累积。
文本控制的事件生成,将字幕分解为事件和动作描述,以实现精确的动态控制。
旨在解决先前在交互式世界生成中存在的参数尺寸过大、推理步骤冗长和历史上下文难以管理等限制。

Yume 1.5 的核心是基于联合时空通道建模的长视频生成框架,它使用统一的上下文压缩和线性注意力来在不导致内存或计算爆炸的情况下,在长序列中保持视觉质量。这种设计允许模型处理延长的持续时间,同时保持跨时间、空间和特征通道的一致性,从而产生感觉在视觉上稳定和连续的世界。在此基础上,Yume 1.5 采用了由双向注意力蒸馏和增强的文本嵌入方案驱动的实时流式加速策略,两者共同作用以加快推理速度并减轻视频和交互历史增长时错误的累积。


Yume 1.5 还通过支持基于键盘的探索和文本控制的事件生成来强调交互性和可控性。用户可以使用熟悉的 WASD 风格控件在生成的世界中移动,从而实现直观的相机导航和对大型生成空间的探索,而不会破坏时间连续性。此外,该系统将文本描述分解为事件和动作组件,允许对动态世界事件和行为进行精确控制,因此提示不仅可以指定世界的外观,还可以指定其随时间如何演变以及其中发生什么。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!