Epona 的世界模型利用多模态时空变换器来处理历史驾驶情境,并使用下一帧预测 DiT 生成 T+1 帧,并使用轨迹规划 DiT 预测未来 N 帧的姿态轨迹。通过采用前向链策略,Epona 能够以自回归方式生成高质量、长时域的视频。这种方法可以生成几分钟的视频、轨迹控制的视频,并泛化到各种驾驶场景。
Epona 的实验结果展现了其卓越的性能,与之前的研究相比,FVD 提高了 7.4%,预测持续时间也延长了几分钟。学习世界模型还可以用作实时运动规划器,在 NAVSIM 基准测试中的表现优于强大的端到端规划器。Epona 能够理解现实世界的交通知识并预测未来轨迹,使其成为自动驾驶应用的理想解决方案。其模块化架构和前向链训练策略能够生成高质量的长时长视频,使其成为研究人员和开发者的宝贵工具。

