寻找最新最佳的图像人工智能。浏览最全面的AI数据库,每日持续更新。
最新
TeleStyle V2 是一种内容保留风格转移和图像编辑模型,通过自蒸馏和分布匹配蒸馏构建。它将 TeleStyle V1 扩展到原始的现实内容和风格化参考设置之外,以处理内容和风格角色中的现实和风格化参考。
该模型使用 TeleStyle V1 构建自蒸馏三元组,然后使用分布匹配蒸馏来降低推理成本,同时保留 Qwen-Ima
Modality Forcing 是一个训练后配方,可将预训练的文本到图像模型转变为联合图像深度生成器。它利用 T2I 模型内的空间先验来合成图像和深度,而不需要密集的深度数据或复杂的训练方法。
该方法在稀疏深度数据上训练单个 DiT,每个模态和每个模态解码器具有单独的噪声级别。这使得模型能够以不同的排列执行图像和深度的条件联合
Boogu-Image-0.1 是一个 Apache-2.0 开源统一多模态理解、图像生成和图像编辑模型系列。它包括Base、Turbo、Edit和其他变体,用于文本到图像生成、快速生成、图像编辑和中英文文本渲染。
该项目通过改进模型理解、数据质量和训练流程,强调受限训练计算下的实用图像质量。该页面重点介绍了逼真的摄影、双语排版
AnchorWorld 是一个具身第一人称世界模拟框架,支持基于视图的演化定制。它利用人体动作控制和与姿态关联的锚点视图,让智能体或玩家能够以第一人称视角探索定制化世界。
每个锚点视图都提供 RGB 图像、用于空间定位的 3D 姿态,以及说明场景应如何变化的演化提示。该方法结合了混合视角的人体动作控制、可演化的锚点视图定制和渐进式
i1 是普林斯顿推出的文生图扩散模型项目,重点在于用一种简单且完全开放的配方实现强图像生成能力。该工作研究建模与数据选择如何影响能力,最终形成一个在 1024 分辨率上评估的 30 亿参数模型。
项目研究了模型设计、文本与噪声条件、骨干架构、合成字幕、提示词改写、数据集混合以及训练与评估选择。它把开放性作为核心贡献之一,通过发布模
SEGA 是一种用于扩散变换器的分辨率外推方法,旨在无需重新训练即可生成稳定的超高分辨率图像。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 SEGA 没有提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
L2P 是一种潜在到像素的传输范式,旨在构建强大的像素空间扩散模型,而无需从头开始训练。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 L2P 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
L2P
PiD 是一种像素扩散解码器,专为潜在图像生成系统的快速高分辨率潜在解码和上采样而设计。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 PiD 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
PiD
LongCat Video Avatar 1.5 是一个音频驱动的头像视频生成模型,旨在根据音频、图像和文本条件创建头像视频。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 LongCat Video Avatar 1.5 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的
PIXLRelight 是一种可控的单图像重新照明模型,设计用于通过闪光灯或类似聚光灯的控件对单张照片进行物理可控的重新照明。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 PIXLRelight 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的 AI 生
AsymFlow 是一种用于可扩展高维像素生成的非对称流建模方法。它旨在通过改变速度预测的参数化方式来使像素空间生成模型更具竞争力。 AsymFlow 没有强制模型直接预测高维噪声,而是将噪声预测限制在低秩子空间,同时保持数据预测全维。
该方法从不对称预测结构中分析恢复全维流速,而不需要不同的网络架构或新的采样程序。这使得 Asy
CDM(连续时间分布匹配)是一种用于生成高保真图像的扩散蒸馏方法。它旨在使扩散模型以很少的推理步骤生成强大的图像,减少延迟,同时保留纹理、细节和提示对齐。该项目专注于将大型图像生成器提炼为更快的采样器,而不依赖于额外的 GAN 损失或奖励模型目标。
该方法将分布匹配蒸馏从离散调度迁移到连续时间优化框架。这使得 CDM 可以更好地使
HiDream-O1 Image 是一个开放的图像生成基础模型,用于文本到图像的创建、图像编辑和主题驱动的个性化。它被构建为一个原生统一的图像生成模型,而不是一个由单独的编码器和生成器组成的松散管道。该模型的目标是以高达 2048 x 2048 的分辨率生成高质量的创意,同时在提示驱动的创作、布局敏感的渲染以及身份或主题一致性任务中保持灵活性。
Krea 2 是 Krea 围绕美学、风格控制和快速创意迭代构建的形象基础模型。它专为那些想要具有表现力的人工智能图像的创作者而设计,这些图像可以遵循视觉方向,而不仅仅是满足字面提示。该模型支持风格参考和情绪板,让用户可以使用一张图像或一组精选的视觉示例来指导输出。
产品注重审美理解、快速生成、可控视觉识别。风格参考让 Krea
Z-anime 是一个专注于动漫的图像生成模型系列,是对 Z-Image Base 架构进行全面微调而构建的。它专为想要强烈的动漫美学、即时控制、多样性和支持现代传播工作流程的创作者而设计。与轻量级风格的附加组件不同,Z-anime 是作为一个经过充分训练的模型系列呈现的,这使其具有更强的动漫风格生成特征。
该模型支持多种部署格式
Anima v3 是 ModelScope 上托管的动画和插图生成模型。它专为想要专门用于风格化角色艺术、视觉概念和插图工作流程的模型的创作者而设计。该模型对于需要可通过 ModelScope 生态系统探索、微调或部署的公共模型资源的用户非常有用。
该模型通过 ModelScope 进行分发,ModelScope 提供模型发现、推
EditCrafter 是一种免调整的高分辨率图像编辑方法,使用预训练的文本到图像扩散模型。它旨在以远远超出许多扩散系统训练大小的分辨率编辑图像,包括高达 4K 分辨率的图像,而无需额外的微调或每个图像的优化。这对于需要高分辨率编辑而无需重新训练模型的创作者和研究人员来说非常有用。
该方法解决了分块编辑的局限性,当应用于大型或不寻
Gen Searcher 是一种搜索增强图像生成代理,经过训练可以将搜索用作创意生成过程的一部分。它可以检索或推理外部信息,以更好地创建地面图像,而不是仅依赖提示和先验固定模型。这使得它对于需要特异性、事实基础或迭代视觉细化的生成任务非常有用。
该系统将监督微调与代理强化学习相结合,教授图像生成的搜索行为。从技术上讲,代理必须决定
See Through 是一个针对动漫角色的单图像层分解系统。它旨在将完整的角色插图分离为有意义的可编辑图层,这对于动画、清理、编辑和资源重用非常有用。该系统专注于动漫风格的图像,其中线条艺术、着色、阴影、头发、服装和配饰可能需要隔离,而无需访问原始源文件。
该方法从单个图像进行操作,这使得分解任务在技术上变得困难,因为模型必须从
SpatialEdit 是一个用于细粒度图像空间编辑的开源基准和研究资源。它旨在测试图像编辑模型是否可以遵循精确的空间指令,例如移动、调整大小、旋转或重新定位视觉元素,同时保留场景的其余部分。这使得评估图像编辑系统对于实际设计和生产工作流程是否足够可控非常重要。
该基准测试侧重于空间编辑操作,并可能将输入图像与结构化指令和目标结果