Epona 是一个专为自动驾驶设计的自回归扩散世界模型。它通过两项关键创新实现了局部时空分布建模：解耦时空分解以及模块化轨迹和视频预测。这能够生成高分辨率、长时长的未来驾驶场景，并进行实时运动规划。Epona 的架构旨在突破传统视频扩散模型的局限性，这些模型难以进行灵活长度、长时域预测以及集成轨迹规划。\nEpona 的世界模型利用多模态时空变换器来处理历史

Epona | 寻找最新最热门的自主AI | 浏览最全面的AI数据库

Epona 是一个专为自动驾驶设计的自回归扩散世界模型。它通过两项关键创新实现了局部时空分布建模：解耦时空分解以及模块化轨迹和视频预测。这能够生成高分辨率、长时长的未来驾驶场景，并进行实时运动规划。Epona 的架构旨在突破传统视频扩散模型的局限性，这些模型难以进行灵活长度、长时域预测以及集成轨迹规划。 \nEpona 的世界模型利用多模态时空变换器来处理历史驾驶情境，并使用下一帧预测 DiT 生成 T+1 帧，并使用轨迹规划 DiT 预测未来 N 帧的姿态轨迹。通过采用前向链策略，Epona 能够以自回归方式生成高质量、长时域的视频。这种方法可以生成几分钟的视频、轨迹控制的视频，并泛化到各种驾驶场景。 \nEpona 的实验结果展现了其卓越的性能，与之前的研究相比，FVD 提高了 7.4%，预测持续时间也延长了几分钟。学习世界模型还可以用作实时运动规划器，在 NAVSIM 基准测试中的表现优于强大的端到端规划器。Epona 能够理解现实世界的交通知识并预测未来轨迹，使其成为自动驾驶应用的理想解决方案。其模块化架构和前向链训练策略能够生成高质量的长时长视频，使其成为研究人员和开发者的宝贵工具。

Epona

关键功能

Subscribe to the AI Search Newsletter