DiffSensei 框架包含两个阶段。在第一阶段,训练一个具有布局控制的多角色定制漫画图像生成模型。在第一个卷积层之后,将对话嵌入添加到带噪声的潜在向量中,并训练 U-Net 和特征提取器中的所有参数。在第二阶段,对 MLLM 的 LoRA 和重采样器权重进行微调,以适应与文本提示相对应的源角色特征。第一阶段的模型用作图像生成器,其权重被冻结。
DiffSensei 附带一个名为 MangaZero 的大型数据集,该数据集包含 43,264 页漫画页面和 427,147 个带注释的面板。该数据集支持可视化连续帧中各种角色交互和动作。大量实验表明,DiffSensei 的性能优于现有模型,通过实现文本自适应的角色定制,标志着漫画生成领域的重大进步。代码、模型和数据集将向社区开源,以促进该领域的进一步开发和研究。