关键功能

动态多字符控制
基于扩散的图像生成器
多模态大型语言模型(MLLM)
文本兼容身份适配器
掩蔽交叉注意力用于角色特征融合
无需直接像素传输的布局控制
灵活调整角色表情、姿势和动作
用于训练和评估的大规模数据集(MangaZero)

DiffSensei 框架包含两个阶段。在第一阶段,训练一个具有布局控制的多角色定制漫画图像生成模型。在第一个卷积层之后,将对话嵌入添加到带噪声的潜在向量中,并训练 U-Net 和特征提取器中的所有参数。在第二阶段,对 MLLM 的 LoRA 和重采样器权重进行微调,以适应与文本提示相对应的源角色特征。第一阶段的模型用作图像生成器,其权重被冻结。


DiffSensei 附带一个名为 MangaZero 的大型数据集,该数据集包含 43,264 页漫画页面和 427,147 个带注释的面板。该数据集支持可视化连续帧中各种角色交互和动作。大量实验表明,DiffSensei 的性能优于现有模型,通过实现文本自适应的角色定制,标志着漫画生成领域的重大进步。代码、模型和数据集将向社区开源,以促进该领域的进一步开发和研究。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!