关键功能

自回归扩散世界模型
局部时空分布建模
解耦时空分解
模块化轨迹和视频预测
高分辨率、长时间生成
实时运动规划
几分钟的视频生成
轨迹控制视频生成

Epona 的世界模型利用多模态时空变换器来处理历史驾驶情境,并使用下一帧预测 DiT 生成 T+1 帧,并使用轨迹规划 DiT 预测未来 N 帧的姿态轨迹。通过采用前向链策略,Epona 能够以自回归方式生成高质量、长时域的视频。这种方法可以生成几分钟的视频、轨迹控制的视频,并泛化到各种驾驶场景。


Epona 的实验结果展现了其卓越的性能,与之前的研究相比,FVD 提高了 7.4%,预测持续时间也延长了几分钟。学习世界模型还可以用作实时运动规划器,在 NAVSIM 基准测试中的表现优于强大的端到端规划器。Epona 能够理解现实世界的交通知识并预测未来轨迹,使其成为自动驾驶应用的理想解决方案。其模块化架构和前向链训练策略能够生成高质量的长时长视频,使其成为研究人员和开发者的宝贵工具。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!