SAM 3 支持各种提示模式,包括概念提示(如简单的名词短语和图像示例)以及视觉提示(如蒙版、框和点)。这提高了分割的灵活性和可用性,特别是对于难以仅用文本描述的稀有概念。SAM 3 在分割由短名词短语描述的对象方面表现出色,反映了交互式和自然场景中常见的用户意图。我们的模型还可以用作多模态大型语言模型的感知工具,用于分割由更复杂提示描述的对象。
SAM 3 已应用于各种用例,包括科学领域,如野生动物监测和海洋探索。该模型还已集成到可穿戴设备中,能够从第一人称视角对物体进行稳健的分割和跟踪。此外,SAM 3 已被用于构建一个利用人工智能和人工标注者的新型数据引擎,从而极大地加快了标注速度。这种混合的人工和人工智能系统使得创建包含超过 400 万个独特概念的大型多样化训练集成为可能。

