SeC 基于已处理的帧形成目标的综合语义表示,从而实现对后续帧的稳健分割。它自适应地平衡基于 LVLM 的语义推理和增强的特征匹配,并根据场景复杂度动态调整计算量。这使得 SeC 能够在计算效率高的同时获得高质量的分割结果。 SeC 已在多个基准测试中得到评估,包括新推出的语义复杂场景视频对象分割基准 (SeCVOS),并展现出比当前最佳方法显著的改进。
SeCVOS 是一个旨在挑战具有大量外观变化和动态场景变换的模型的基准测试。它包含 160 个手动注释的多场景视频,用于在需要高级概念推理和稳健语义理解的场景中严格评估 VOS 方法。SeC 在 SeCVOS 上的得分比 SAM 2.1 提高了 11.8 分,在概念感知视频对象分割领域树立了新的最高水平。这证明了 SeC 在处理复杂视频对象分割任务方面的有效性。