Yume 1.5 的核心是基于联合时空通道建模的长视频生成框架,它使用统一的上下文压缩和线性注意力来在不导致内存或计算爆炸的情况下,在长序列中保持视觉质量。这种设计允许模型处理延长的持续时间,同时保持跨时间、空间和特征通道的一致性,从而产生感觉在视觉上稳定和连续的世界。在此基础上,Yume 1.5 采用了由双向注意力蒸馏和增强的文本嵌入方案驱动的实时流式加速策略,两者共同作用以加快推理速度并减轻视频和交互历史增长时错误的累积。
Yume 1.5 还通过支持基于键盘的探索和文本控制的事件生成来强调交互性和可控性。用户可以使用熟悉的 WASD 风格控件在生成的世界中移动,从而实现直观的相机导航和对大型生成空间的探索,而不会破坏时间连续性。此外,该系统将文本描述分解为事件和动作组件,允许对动态世界事件和行为进行精确控制,因此提示不仅可以指定世界的外观,还可以指定其随时间如何演变以及其中发生什么。

