GLM-Image 的复杂性通过其独特的、利用解耦强化学习(特别是 GRPO 算法)的后训练方案得到了进一步增强。这种模块化反馈策略根据其影响的组件来定制学习信号:自回归模块接收低频反馈以精炼美学质量和对提示的语义遵循性,确保更好的指令遵循。同时,扩散解码器接收高频反馈,专门用于提高细节保真度和图像中文本渲染的准确性,从而产生极其逼真纹理和清晰的文本元素。
除了标准的文本到图像生成,GLM-Image 还专为多功能性而设计,在同一框架内无缝支持全面的图像到图像功能。这包括细微的图像编辑、复杂风格迁移操作以及身份保持生成等关键任务,以在多个输出中保持主体外观的一致性。该模型在信息密集型场景(例如创建带有准确嵌入文本的复杂布局)中的出色表现,使其成为需要高视觉保真度和语义精度的应用的强大工具。

