Bokeh Diffusion

该框架集成了三个关键组件来实现这种场景一致的散景控制。首先，混合数据集流水线将真实世界图像与在野外拍摄的自然散景以及合成模糊增强相结合，提供强大而多样的训练样本，巩固模型对逼真散焦的理解。其次，该模型通过解耦的交叉注意力模块，将物理上可解释的模糊参数注入扩散过程，从而实现散焦模糊调节，从而在不覆盖文本或语义特征的情况下调节模糊强度。第三，基于自注意力机制 (Grounded Self-Attention Mechanisms) 使用枢轴图像来锚定场景布局，确保对象位置的一致性，并防止模糊级别变化时出现不必要的内容偏移。这些创新共同实现了在生成图像和真实图像编辑场景中灵活、高保真地控制景深效果。

散景扩散不仅提高了合成图像生成的质量和可控性，还支持通过反转进行真实图像编辑等实际应用，使用户能够无缝调整现有照片的散景强度。其基于物理的方法优于依赖深度估计的后处理方法，后者通常难以去除或准确调节模糊。即使在薄结构或复杂背景等具有挑战性的区域，该模型也能产生自然的散景效果，这为摄影师、艺术家和内容创作者开辟了新的创作可能性。通过将摄影写实主义与生成式建模相结合，散景扩散 (Bokeh Diffusion) 代表了可控图像合成和编辑领域的重要一步。

主要功能包括：

显式散焦模糊调节，实现精确、连续的散景控制
结合真实自然场景图像和合成模糊增强的混合训练流程
解耦的交叉注意力模块，可在模糊调制过程中保留语义内容
使用枢轴图像进行接地自注意力，以保持一致的场景布局
支持通过反转进行真实图像编辑，以在拍摄后调整散景强度
在不改变底层场景结构的情况下生成类似镜头的散景效果
在自然度和灵活性方面优于传统的后处理方法

Subscribe to the AI Search Newsletter