UNO 技术的核心是两大创新:渐进式跨模态对齐和通用旋转位置嵌入。渐进式跨模态对齐采用两阶段训练策略,首先使用单主题数据微调基础文本到图像模型,然后使用生成的多主题数据对进行进一步训练。这种方法使 UNO 在需要同时描绘多个对象或人物且不丢失其个体特征的场景中表现出色。通用旋转位置嵌入技术解决了属性混淆的问题,确保模型即使在高度精细或拥挤的场景中也能区分并保留每个主体的特征。


UNO 的高一致性数据合成流程是另一个突出的特点,它利用了扩散变换器固有的上下文生成功能。这使得能够生成具有高一致性的配对数据,支持虚拟试穿、产品展示和品牌定制内容创建等任务。UNO 的代码遵循 Apache 2.0 许可证,模型权重遵循 CC BY-NC 4.0 许可证开源,研究人员和开发者均可使用。其直观的设计和强大的功能使其适用于从电子商务和广告到创意设计和数字叙事等广泛的应用。


主要功能包括:


  • 支持高一致性的单主题和多主题图像生成
  • 渐进式跨模态对齐,实现精确的主题控制
  • 通用旋转位置嵌入,防止属性混淆
  • 使用扩散变换器的高一致性数据合成管道
  • 支持多图像条件输入,用于复杂场景创建
  • 开源,提供可访问的训练和推理代码

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!