关键功能

使用预训练的视频扩散先验将粗略的分割掩码转换为像素级精确的Alpha遮罩。
仅在合成数据上训练,实现了对真实世界视频的强大零样本泛化能力。
开发了一个可扩展的伪标签管道,用于自动生成高质量的视频抠图注释。
引入了MA-V数据集,其中包含50K多个具有不同场景和运动的真实世界视频。
将SAM2微调为SAM2-Matte,在真实视频抠图任务上优于基线模型。
通过掩码引导的扩散细化确保时间一致性和细节保留。
支持用于视频选择和真实结果可视化的交互式演示。
提供定量和定性比较,验证了卓越的性能指标。

在VideoMaMa强大能力的基础上,该框架引入了一个可扩展的伪标签管道,可从可访问的分割线索中自动生成高质量的抠图注释。该管道促进了“视频中一切抠图”(Matting Anything in Video, MA-V)数据集的创建,该数据集包含50,000多个真实世界视频,并附有像素级精确的Alpha遮罩注释,涵盖了广泛的日常场景、动态运动和环境变化。通过普及对大规模训练数据的访问,VideoMaMa为推动需要无缝前景-背景分离的视频编辑工具、合成工作流程和增强现实应用开辟了道路。


为证明其实际影响,VideoMaMa在MA-V数据集上对Segment Anything Model 2 (SAM2) 进行了微调,生成了SAM2-Matte,与在先前抠图数据集上训练的模型相比,它在未见过的真实视频上表现出卓越的鲁棒性和准确性。该架构集成了掩码引导处理和基于扩散的细化,确保了跨视频帧的时间一致性和精细细节保留。所有模型、代码和全面的MA-V数据集都将公开发布,从而使研究人员和开发人员能够推动生成视频处理和可扩展注释策略的界限。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!