其核心在于,VIBE 采用创新的通道级级联(channel-wise concatenation)技术,将参考图像的潜在表示(latents)直接与加噪的扩散潜在表示融合,从而在保持 token 数量和计算效率的同时,避免了传统基于序列的方法带来的注意力成本膨胀。该系统通过注入到冻结的 VLM 中的可学习元 token(meta-tokens)来桥接模态,这些元 token 将“在沙发上加一只猫”或“将背景改为夜景”等指令情境化,生成引导扩散过程的条件特征,这些特征通过轻量级的 Transformer 连接器进行路由。该架构支持多样化的编辑,从属性调整、对象移除到背景替换和目标添加,同时在复杂场景中保持解剖学的准确性和语义保真度。
VIBE 的训练方案涵盖四个精心设计的阶段——在文本到图像数据上进行连接器对齐、在多分辨率(最高达 2048x2048)下使用混合编辑三元组和 T2I 注入进行预训练、在 680 万个精心策划的对上进行监督微调,以及用于偏好对齐的 Diffusion-DPO——这使得它在 ImgEdit 和 GEdit 基准测试中表现出色,在需要高度保持性的任务中优于更大的模型。数据策展工作借鉴了修复后的 UltraEdit、真实世界的三元组、虚拟试穿和自举构图,并辅以光度调整、身份保持提示以及对伪影和不一致性的严格过滤。VIBE 开放发布,赋予创作者和开发人员能力,使其能够在从本地工作站到边缘设备的管线中部署快速、一致的图像编辑,重新定义了可访问的视觉内容创建。

