Chain-of-Zoom

Paid 超分辨率图像增强

网站推广

关键功能

极端超分辨率的模型无关框架

尺度自回归和偏好调整

多尺度感知提示，提高图像质量

重复使用骨干SR模型进行高效处理

将条件概率分解为可处理的子问题

使文本指导符合人类偏好

使用视觉语言模型（VLM）生成提示

使用广义奖励策略优化（GRPO）对 VLM 进行微调

CoZ 解决了现代 SISR 模型的可扩展性瓶颈。这些模型在训练时使用的尺度因子下能够提供照片级逼真的效果，但在被要求放大到远超该尺度时就会崩溃。通过使用视觉语言模型 (VLM) 生成多尺度感知文本提示，CoZ 可以克服原始输入信号的稀疏性，并生成更逼真的图像。提示提取器本身使用广义奖励策略优化 (GRPO) 和评论家 VLM 进行微调，使文本引导与人类偏好保持一致。

实验表明，CoZ 可以在极端尺度下实现高质量的超分辨率结果，其性能优于传统的 SR 方法以及使用不同文本提示的其他 CoZ 变体。使用 GRPO 对 VLM 进行微调可以增强与人类偏好的一致性，这一点已通过针对人类偏好图像生成和人类偏好文本生成的平均意见得分 (MOS) 测试得到验证。CoZ 具有应用于图像和视频增强等各种应用的潜力，可用于提升各个领域的图像和视频质量。

在您的网站添加此徽章，以获得更多点赞并登上搜索结果顶部！

Chain-of-Zoom

关键功能

Subscribe to the AI Search Newsletter