关键功能

混合自回归 + 扩散解码器架构,结合两者优势。
90亿参数的自回归生成器,具有扩展的视觉令牌词汇表。
70亿参数的扩散解码器,配备专用的字形编码器(Glyph Encoder)以实现卓越的文本渲染。
使用 GRPO 进行后训练,实现解耦强化学习,增强语义和细节。
在文本渲染和知识密集型生成场景中表现出色。
支持高保真、细粒度的细节生成。
全面的图像到图像功能,包括编辑和风格迁移。
支持身份保持生成和多主体一致性。

GLM-Image 的复杂性通过其独特的、利用解耦强化学习(特别是 GRPO 算法)的后训练方案得到了进一步增强。这种模块化反馈策略根据其影响的组件来定制学习信号:自回归模块接收低频反馈以精炼美学质量和对提示的语义遵循性,确保更好的指令遵循。同时,扩散解码器接收高频反馈,专门用于提高细节保真度和图像中文本渲染的准确性,从而产生极其逼真纹理和清晰的文本元素。


除了标准的文本到图像生成,GLM-Image 还专为多功能性而设计,在同一框架内无缝支持全面的图像到图像功能。这包括细微的图像编辑、复杂风格迁移操作以及身份保持生成等关键任务,以在多个输出中保持主体外观的一致性。该模型在信息密集型场景(例如创建带有准确嵌入文本的复杂布局)中的出色表现,使其成为需要高视觉保真度和语义精度的应用的强大工具。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!