DiffSensei

Free 图形漫画世代

网站推广

关键功能

动态多字符控制

基于扩散的图像生成器

多模态大型语言模型（MLLM）

文本兼容身份适配器

掩蔽交叉注意力用于角色特征融合

无需直接像素传输的布局控制

灵活调整角色表情、姿势和动作

用于训练和评估的大规模数据集（MangaZero）

DiffSensei 框架包含两个阶段。在第一阶段，训练一个具有布局控制的多角色定制漫画图像生成模型。在第一个卷积层之后，将对话嵌入添加到带噪声的潜在向量中，并训练 U-Net 和特征提取器中的所有参数。在第二阶段，对 MLLM 的 LoRA 和重采样器权重进行微调，以适应与文本提示相对应的源角色特征。第一阶段的模型用作图像生成器，其权重被冻结。

DiffSensei 附带一个名为 MangaZero 的大型数据集，该数据集包含 43,264 页漫画页面和 427,147 个带注释的面板。该数据集支持可视化连续帧中各种角色交互和动作。大量实验表明，DiffSensei 的性能优于现有模型，通过实现文本自适应的角色定制，标志着漫画生成领域的重大进步。代码、模型和数据集将向社区开源，以促进该领域的进一步开发和研究。

在您的网站添加此徽章，以获得更多点赞并登上搜索结果顶部！

DiffSensei

关键功能

Subscribe to the AI Search Newsletter