VIBE

Free 图像编辑视觉工具

网站推广

关键功能

通过自然语言指令进行文本引导的图像编辑

严格的源一致性，保留原始身份和布局

通道级潜在表示级联，实现高效的参考引导

可学习的元 token 桥接 VLM 和扩散模态

在 H100 上以 4 秒速度实现 2K 分辨率的高吞吐量推理

紧凑设计，适应 24GB GPU 内存，总参数 3.6B

支持从 384x384 到 2048x2048 的多分辨率

四阶段训练，包括用于人类偏好输出的 DPO

其核心在于，VIBE 采用创新的通道级级联（channel-wise concatenation）技术，将参考图像的潜在表示（latents）直接与加噪的扩散潜在表示融合，从而在保持 token 数量和计算效率的同时，避免了传统基于序列的方法带来的注意力成本膨胀。该系统通过注入到冻结的 VLM 中的可学习元 token（meta-tokens）来桥接模态，这些元 token 将“在沙发上加一只猫”或“将背景改为夜景”等指令情境化，生成引导扩散过程的条件特征，这些特征通过轻量级的 Transformer 连接器进行路由。该架构支持多样化的编辑，从属性调整、对象移除到背景替换和目标添加，同时在复杂场景中保持解剖学的准确性和语义保真度。

VIBE 的训练方案涵盖四个精心设计的阶段——在文本到图像数据上进行连接器对齐、在多分辨率（最高达 2048x2048）下使用混合编辑三元组和 T2I 注入进行预训练、在 680 万个精心策划的对上进行监督微调，以及用于偏好对齐的 Diffusion-DPO——这使得它在 ImgEdit 和 GEdit 基准测试中表现出色，在需要高度保持性的任务中优于更大的模型。数据策展工作借鉴了修复后的 UltraEdit、真实世界的三元组、虚拟试穿和自举构图，并辅以光度调整、身份保持提示以及对伪影和不一致性的严格过滤。VIBE 开放发布，赋予创作者和开发人员能力，使其能够在从本地工作站到边缘设备的管线中部署快速、一致的图像编辑，重新定义了可访问的视觉内容创建。

在您的网站添加此徽章，以获得更多点赞并登上搜索结果顶部！

VIBE

关键功能

Subscribe to the AI Search Newsletter