PixelHacker 在潜在扩散架构的基础上,引入了两个固定大小的 LCG 嵌入,分别对潜在前景和背景特征进行编码。该模型采用线性注意力机制将这些潜在特征注入去噪过程,从而实现间歇性的结构和语义多重交互。这种设计鼓励模型学习结构和语义一致的数据分布,从而实现结构和语义均具有出色一致性的高质量图像修复。
PixelHacker 已在包括 Places、CelebA-HQ 和 FFHQ 在内的各种数据集上进行了广泛评估,并展现出全面超越最先进方法的性能。该模型能够学习结构和语义一致的数据分布,使其成为图像编辑和生成应用的宝贵工具。凭借其先进的特性和功能,PixelHacker 有望彻底改变图像修复和生成领域。