EasyControl

为了进一步提高生成的灵活性和效率，EasyControl 采用了位置感知训练范式，将输入条件标准化为固定分辨率，从而可以生成具有任意宽高比和灵活分辨率的图像。它还融合了因果注意力机制和键值 (KV) 缓存技术，通过在推理过程中缓存和重用注意力计算，大幅降低了图像合成延迟。这些创新使 EasyControl 能够支持多种分辨率、宽高比和多条件组合，同时保持较高的计算效率。该框架在各种视觉任务中展现出卓越的性能，包括空间和主体控制、风格迁移以及多条件生成场景。

EasyControl 支持多种控制模型，例如 Canny 边缘检测、深度图、HED 边缘草图、人体姿态估计、语义分割、图像修复和主体控制，为图像生成提供精准的指导。其轻量级模块（通常每个条件约 1500 万个参数）比传统的 ControlNet 模型小得多，从而实现更快的推理和更轻松的集成。该框架是开源的，并与 ComfyUI 等热门工具兼容，方便开发者和研究人员将其融入到他们的工作流程中。 EasyControl 将模块化、高效性和多条件协调性相结合，标志着可控扩散变换器模型的重大进步，为创造性和实际应用开辟了新的可能性。

主要功能包括：

轻量级条件注入 LoRA 模块，用于独立且灵活的条件处理
位置感知训练范式，支持任意分辨率和宽高比生成
带有 KV 缓存的因果注意力机制，可显著降低推理延迟
支持多种控制条件，包括 Canny、深度、姿势、分割和修复
无需联合训练即可实现强大的零样本多条件泛化
即插即用，兼容定制基础模型和样式 LoRA
开源，支持 ComfyUI 和其他平台的集成

Subscribe to the AI Search Newsletter