关键功能

多主体控制生成
特定于标记的文本流调制偏移
高保真、可编辑的多主题图像合成
对个体受试者特征的强大控制
语义属性的细粒度操作
对多个主体身份的一致控制
用于细节保存的 VAE 编码图像特征模块
用于提高生成质量的正则化技术

XVerse 的核心在于它能够通过学习扩散变换器 (DiT) 文本流调制机制中的偏移来实现对多个主体身份和语义属性的一致控制。该模型由四个关键组件组成:T-Mod 适配器、文本流调制机制、VAE 编码图像特征模块和正则化技术。这些组件协同工作,使 XVerse 能够对特定主体进行精细调整,同时保持图像的整体结构。


XVerse 在 XVerseBench 基准测试(一项对多主体控制图像生成能力的全面评估)中已被证明优于现有方法。该模型擅长控制单个主体的身份和语义属性,并在复杂场景中保持多个主体之间的一致性。XVerse 还能对光照、姿势和风格进行精细操控,提供前所未有的创意控制能力。其强大功能使其成为图像编辑、内容创作等应用领域的宝贵工具。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!