寻找最新最佳的图像人工智能。浏览最全面的AI数据库,每日持续更新。
最新
SEGA 是一种用于扩散变换器的分辨率外推方法,旨在无需重新训练即可生成稳定的超高分辨率图像。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 SEGA 没有提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
PIXLRelight 是一种可控的单图像重新照明模型,设计用于通过闪光灯或类似聚光灯的控件对单张照片进行物理可控的重新照明。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 PIXLRelight 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的 AI 生
L2P 是一种潜在到像素的传输范式,旨在构建强大的像素空间扩散模型,而无需从头开始训练。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 L2P 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
L2P
LongCat Video Avatar 1.5 是一个音频驱动的头像视频生成模型,旨在根据音频、图像和文本条件创建头像视频。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 LongCat Video Avatar 1.5 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的
PiD 是一种像素扩散解码器,专为潜在图像生成系统的快速高分辨率潜在解码和上采样而设计。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 PiD 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
PiD
Krea 2 是 Krea 围绕美学、风格控制和快速创意迭代构建的形象基础模型。它专为那些想要具有表现力的人工智能图像的创作者而设计,这些图像可以遵循视觉方向,而不仅仅是满足字面提示。该模型支持风格参考和情绪板,让用户可以使用一张图像或一组精选的视觉示例来指导输出。
产品注重审美理解、快速生成、可控视觉识别。风格参考让 Krea
AsymFlow 是一种用于可扩展高维像素生成的非对称流建模方法。它旨在通过改变速度预测的参数化方式来使像素空间生成模型更具竞争力。 AsymFlow 没有强制模型直接预测高维噪声,而是将噪声预测限制在低秩子空间,同时保持数据预测全维。
该方法从不对称预测结构中分析恢复全维流速,而不需要不同的网络架构或新的采样程序。这使得 Asy
CDM(连续时间分布匹配)是一种用于生成高保真图像的扩散蒸馏方法。它旨在使扩散模型以很少的推理步骤生成强大的图像,减少延迟,同时保留纹理、细节和提示对齐。该项目专注于将大型图像生成器提炼为更快的采样器,而不依赖于额外的 GAN 损失或奖励模型目标。
该方法将分布匹配蒸馏从离散调度迁移到连续时间优化框架。这使得 CDM 可以更好地使
HiDream-O1 Image 是一个开放的图像生成基础模型,用于文本到图像的创建、图像编辑和主题驱动的个性化。它被构建为一个原生统一的图像生成模型,而不是一个由单独的编码器和生成器组成的松散管道。该模型的目标是以高达 2048 x 2048 的分辨率生成高质量的创意,同时在提示驱动的创作、布局敏感的渲染以及身份或主题一致性任务中保持灵活性。
See Through 是一个针对动漫角色的单图像层分解系统。它旨在将完整的角色插图分离为有意义的可编辑图层,这对于动画、清理、编辑和资源重用非常有用。该系统专注于动漫风格的图像,其中线条艺术、着色、阴影、头发、服装和配饰可能需要隔离,而无需访问原始源文件。
该方法从单个图像进行操作,这使得分解任务在技术上变得困难,因为模型必须从
UniGenDet 是一个统一的生成判别框架,用于协同进化图像生成和生成图像检测。它的设计理念是图像生成器和检测器应该共同改进,而不是作为孤立的系统开发。这使得它与区分合成图像和真实图像这一日益严重的问题相关,同时也了解新一代方法是如何发展的。
该系统将图像合成的生成部分与检测的判别部分连接起来,创建一个反馈循环,其中每个组件都可
SpatialEdit 是一个用于细粒度图像空间编辑的开源基准和研究资源。它旨在测试图像编辑模型是否可以遵循精确的空间指令,例如移动、调整大小、旋转或重新定位视觉元素,同时保留场景的其余部分。这使得评估图像编辑系统对于实际设计和生产工作流程是否足够可控非常重要。
该基准测试侧重于空间编辑操作,并可能将输入图像与结构化指令和目标结果
Anima v3 是 ModelScope 上托管的动画和插图生成模型。它专为想要专门用于风格化角色艺术、视觉概念和插图工作流程的模型的创作者而设计。该模型对于需要可通过 ModelScope 生态系统探索、微调或部署的公共模型资源的用户非常有用。
该模型通过 ModelScope 进行分发,ModelScope 提供模型发现、推
Qwen 3.5 Omni 是 Qwen 系列的开放式多模式模型,旨在支持跨文本、图像、音频和其他媒体的统一交互。它适用于需要跨多种输入类型进行推理而不是通过单独的堆栈路由每种模态的助手和应用程序。该模型适合多模式聊天、文档理解、图像和视频分析以及使用工具的代理工作流程。
Omni 设计强调统一的多模式处理,其中单个模型系列可以处
SenseNova U1 是 SenseNova-U 系列的开放式多模式模型版本,围绕本机统一范例构建。它旨在将多种模式引入单个模型架构中,以便系统可以更自然地推理和生成不同形式的信息。该版本面向想要从第一原理研究统一多模态建模的开发人员和研究人员。
该项目以 NEO-Unify 为中心,这一设计方向将多模式功能视为模型的本机部分
UniGeo 是一种相机控制的图像编辑系统,通过视频模型使用统一的几何引导。它旨在在受控相机运动下合成输入场景的新视图,同时保留场景几何形状和结构保真度。这使得它对于视点变化必须保持物理和视觉一致的图像编辑任务非常有用。
该产品解决了相机感知图像编辑中的一个常见弱点:当相机移动时,碎片化的几何引导可能会产生扭曲、伪影或结构漂移。
EditCrafter 是一种免调整的高分辨率图像编辑方法,使用预训练的文本到图像扩散模型。它旨在以远远超出许多扩散系统训练大小的分辨率编辑图像,包括高达 4K 分辨率的图像,而无需额外的微调或每个图像的优化。这对于需要高分辨率编辑而无需重新训练模型的创作者和研究人员来说非常有用。
该方法解决了分块编辑的局限性,当应用于大型或不寻
Z-anime 是一个专注于动漫的图像生成模型系列,是对 Z-Image Base 架构进行全面微调而构建的。它专为想要强烈的动漫美学、即时控制、多样性和支持现代传播工作流程的创作者而设计。与轻量级风格的附加组件不同,Z-anime 是作为一个经过充分训练的模型系列呈现的,这使其具有更强的动漫风格生成特征。
该模型支持多种部署格式
Gen Searcher 是一种搜索增强图像生成代理,经过训练可以将搜索用作创意生成过程的一部分。它可以检索或推理外部信息,以更好地创建地面图像,而不是仅依赖提示和先验固定模型。这使得它对于需要特异性、事实基础或迭代视觉细化的生成任务非常有用。
该系统将监督微调与代理强化学习相结合,教授图像生成的搜索行为。从技术上讲,代理必须决定
Wondercraft 是一家 AI 视频工作室,旨在帮助创作者和业务团队将想法、文档和脚本转化为精美的、适合业务的视频内容。该平台汇集了视频、头像、图像、语音、音乐、声音和文本的现代人工智能模型,因此用户可以从粗略的概念转变为最终的输出,而无需将一堆单独的工具拼接在一起。它的构建是为了减少制作有用内容的麻烦,同时保持工作流程对于非技术用户来说也易于理