CoZ 解决了现代 SISR 模型的可扩展性瓶颈。这些模型在训练时使用的尺度因子下能够提供照片级逼真的效果,但在被要求放大到远超该尺度时就会崩溃。通过使用视觉语言模型 (VLM) 生成多尺度感知文本提示,CoZ 可以克服原始输入信号的稀疏性,并生成更逼真的图像。提示提取器本身使用广义奖励策略优化 (GRPO) 和评论家 VLM 进行微调,使文本引导与人类偏好保持一致。
实验表明,CoZ 可以在极端尺度下实现高质量的超分辨率结果,其性能优于传统的 SR 方法以及使用不同文本提示的其他 CoZ 变体。使用 GRPO 对 VLM 进行微调可以增强与人类偏好的一致性,这一点已通过针对人类偏好图像生成和人类偏好文本生成的平均意见得分 (MOS) 测试得到验证。CoZ 具有应用于图像和视频增强等各种应用的潜力,可用于提升各个领域的图像和视频质量。