XVerse 的核心在于它能够通过学习扩散变换器 (DiT) 文本流调制机制中的偏移来实现对多个主体身份和语义属性的一致控制。该模型由四个关键组件组成:T-Mod 适配器、文本流调制机制、VAE 编码图像特征模块和正则化技术。这些组件协同工作,使 XVerse 能够对特定主体进行精细调整,同时保持图像的整体结构。
XVerse 在 XVerseBench 基准测试(一项对多主体控制图像生成能力的全面评估)中已被证明优于现有方法。该模型擅长控制单个主体的身份和语义属性,并在复杂场景中保持多个主体之间的一致性。XVerse 还能对光照、姿势和风格进行精细操控,提供前所未有的创意控制能力。其强大功能使其成为图像编辑、内容创作等应用领域的宝贵工具。