在VideoMaMa强大能力的基础上,该框架引入了一个可扩展的伪标签管道,可从可访问的分割线索中自动生成高质量的抠图注释。该管道促进了“视频中一切抠图”(Matting Anything in Video, MA-V)数据集的创建,该数据集包含50,000多个真实世界视频,并附有像素级精确的Alpha遮罩注释,涵盖了广泛的日常场景、动态运动和环境变化。通过普及对大规模训练数据的访问,VideoMaMa为推动需要无缝前景-背景分离的视频编辑工具、合成工作流程和增强现实应用开辟了道路。
为证明其实际影响,VideoMaMa在MA-V数据集上对Segment Anything Model 2 (SAM2) 进行了微调,生成了SAM2-Matte,与在先前抠图数据集上训练的模型相比,它在未见过的真实视频上表现出卓越的鲁棒性和准确性。该架构集成了掩码引导处理和基于扩散的细化,确保了跨视频帧的时间一致性和精细细节保留。所有模型、代码和全面的MA-V数据集都将公开发布,从而使研究人员和开发人员能够推动生成视频处理和可扩展注释策略的界限。

