该模型的架构集成了多个创新组件,包括用于视觉语义控制的 Qwen2.5-VL 和用于精细视觉外观管理的变分自编码器 (VAE)。这些双重编码机制使 Qwen-Image-Edit 能够严格平衡语义一致性和视觉保真度,从而保持对象身份并确保未修改区域的一致性。这种双重方法允许用户执行复杂的编辑任务,从细微的视觉调整到重大的内容转换,而不会丢失原始图像的上下文含义或质量。
Qwen-Image-Edit 专为专业内容创作者和普通用户设计,可通过 Qwen Chat 访问,并配备专用的“图像编辑”功能,并且原生支持 ComfyUI 等平台。它在多个公开基准测试中均表现出色,展现了其在图像编辑任务中的强大性能和可靠性。通过将强大的语义和外观编辑功能与精确的双语文本控制相结合,Qwen-Image-Edit 显著降低了高效制作高质量定制视觉内容的门槛。

