XVerse 是一种新颖的多主体控制生成模型，能够在不干扰图像潜在变量或特征的情况下，对特定主体进行精确且独立的控制。它通过将参考图像转换为特定于 token 的文本流调制偏移来实现这一点，从而实现高保真、可编辑的多主体图像合成。XVerse 还能对单个主体特征进行强大的控制，并对语义属性进行细粒度的操作，显著提升个性化和复杂场景生成的能力。\nXVerse

XVerse | 寻找最新最热门的影像学AI | 浏览最全面的AI数据库

XVerse 是一种新颖的多主体控制生成模型，能够在不干扰图像潜在变量或特征的情况下，对特定主体进行精确且独立的控制。它通过将参考图像转换为特定于 token 的文本流调制偏移来实现这一点，从而实现高保真、可编辑的多主体图像合成。XVerse 还能对单个主体特征进行强大的控制，并对语义属性进行细粒度的操作，显著提升个性化和复杂场景生成的能力。 \nXVerse 的核心在于它能够通过学习扩散变换器 (DiT) 文本流调制机制中的偏移来实现对多个主体身份和语义属性的一致控制。该模型由四个关键组件组成：T-Mod 适配器、文本流调制机制、VAE 编码图像特征模块和正则化技术。这些组件协同工作，使 XVerse 能够对特定主体进行精细调整，同时保持图像的整体结构。 \nXVerse 在 XVerseBench 基准测试（一项对多主体控制图像生成能力的全面评估）中已被证明优于现有方法。该模型擅长控制单个主体的身份和语义属性，并在复杂场景中保持多个主体之间的一致性。XVerse 还能对光照、姿势和风格进行精细操控，提供前所未有的创意控制能力。其强大功能使其成为图像编辑、内容创作等应用领域的宝贵工具。

XVerse

关键功能

Subscribe to the AI Search Newsletter