该流程首先将现成模型生成的二维轨迹和深度图作为输入。运动编码器对其进行处理以捕捉详细的运动模式,从而生成代表动态轨迹的特征轨迹。然后,轨迹解码器会集成 DINO 语义特征,通过分离运动和语义信息来解码这些轨迹,从而生成稳健的动态轨迹。最后,系统利用最先进的分割模型 SAM2,对属于同一物体的动态轨迹进行分组,并通过迭代提示策略生成精确的像素级运动物体蒙版。这种组合确保了高质量的分割蒙版,能够准确反映物体边界和跨视频帧的运动动态。
该方法已在各种数据集上展现出最佳性能,在涉及多个移动物体、遮挡和复杂背景运动的挑战性场景中表现出色。它对于需要高级场景理解的应用(例如自动驾驶、视频编辑、监控和机器人技术)尤其有用。开源实现支持预处理、训练、推理和评估,并提供了在兼容硬件设置上安装和使用的详细说明。通过利用先进的运动和语义建模技术,Segment Any Motion in Videos 为现实世界视频分析任务中的动态对象分割提供了强大且可扩展的解决方案。
主要功能包括:
- 将长距离轨迹运动线索与基于 DINO 的语义特征相结合
- 时空轨迹注意力机制和运动语义解耦嵌入
- 处理二维轨迹和深度图以捕捉详细的运动模式
- 使用 SAM2 进行像素级掩膜加密和细粒度分割
- 采用迭代提示策略对动态轨迹进行精确分组
- 在复杂的多对象视频数据集上表现出色
- 开源,提供全面的预处理、训练和推理功能管道