寻找最新最佳的图形人工智能。浏览最全面的AI数据库,每日持续更新。
最新
FLUX.2 站在视觉智能研究的前沿,代表着生成模型能力的一次重大飞跃。这个生产级系统旨在以惊人的 4 兆像素分辨率提供照片级逼真的输出,为图像质量和细节设定了新的基准。FLUX.2 不仅仅是图像创建,它在跨数百个生成资产中保持身份和风格一致性方面表现出色,这对于规模化创意项目、品牌推广和产品可视化至关重要,在这些领域中,统一性是至关重要的。该模型对现
Lynx是一款文本到图像模型,可以根据文本提示生成高质量的图像。它采用了一种新颖的方法,结合了基于扩散和自回归模型的优势。Lynx能够生成各种各样的图像,从简单的物体到复杂的场景,甚至可以处理描述抽象概念或情感的文本提示。
Lynx的一个关键特性是它能够生成高度详细和逼真的图像。这是通过使用在一个大型图像数据集上训练的基于扩散的模型
Hunyuan3D-Part 是一个从图像生成 3D 部件的管道,包含两个关键组件:P3-SAM 和 X-Part。整体网格输入到部件检测模块 P3-SAM 中,以获取语义特征、部件分割和部件边界框。然后,X-Part 从 P3-SAM 的输出生成完整的部件。该管道能够从图像生成高质量的 3D 部件,并应用于计算机视觉、机器人和计算机辅助设计等各个领域
Gemini 2.5 Flash Image,代号为 Nano Banana,是一款尖端的图像生成和编辑模型,使用户能够将多张图像融合到一张图像中,保持角色一致性以实现丰富的叙事,使用自然语言进行有针对性的转换,并利用 Gemini 的世界知识来生成和编辑图像。此更新建立在今年早些时候引入的 Gemini 2.0 Flash 的原生图像生成功能之上,用
VideoFrom3D 从粗糙的几何体、摄像机轨迹和参考图像合成高质量的 3D 场景视频。该方法简化了 3D 图形设计工作流程,实现了灵活的设计探索和交付成果的快速制作。从粗糙几何体合成视频的一个简单方法可能是基于几何结构来调控视频扩散模型。然而,现有的视频扩散模型由于难以同时模拟视觉质量、运动和时间一致性,在生成复杂场景的高保真结果时存在困难。
HiDream-E1 是一个基于 HiDream-I1 构建的图像编辑模型。它旨在提供一个具有稀疏扩散转换器的、高效的图像生成基础模型。该模型能够编辑具有各种样式、颜色和纹理的图像。它还可以向图像中添加或移除物体,使其成为一个多功能的图像编辑工具。
该模型已经在大量的图像数据集上进行了训练,并在各种图像编辑基准测试中取得了最先进的结
DiffSensei 是一个专为生成具有动态多角色控制的漫画而设计的创新框架。它将基于扩散的图像生成器与充当文本兼容身份适配器的多模态大型语言模型 (MLLM) 相结合。这种方法无需直接像素迁移即可实现精确的布局控制,从而可以灵活调整角色的表情、姿势和动作。该框架解决了现有文本转图像生成模型的局限性,这些模型通常无法有效控制多角色场景中角色的外观和交互
FLUX.1 Krea [dev] 是一个 12B 参数整流模型,源自 Krea 1,这是 Krea 与 Black Forest Labs 的合作研究成果。该模型旨在提供卓越的美学控制和图像质量。代码库包含用于运行该模型的推理代码和 Jupyter Notebook,权重托管在 Huggingface 上。该模型是一个 CFG 提炼模型,与 FLUX
Qwen-Image 是一个强大的图像生成基础模型,能够进行复杂的文本渲染和精确的图像编辑。它在复杂文本渲染和精确图像编辑方面取得了显著进步,尤其是在文本渲染方面表现出色,尤其适用于中文。该模型是一个 20B MMDiT 图像基础模型,在图像生成和编辑方面都具有强大的通用功能。
Qwen-Image 的一大亮点是其跨多种图像的高
OmniPart 是一个用于生成零件感知型 3D 对象的新型框架,它在保持稳健结构内聚力的同时,实现了组件之间的高度语义解耦。该框架旨在克服传统生成方法仅能生成单一形状的局限性,从而限制了它们在交互式应用中的实用性。OmniPart 以独特的方式将复杂的 3D 对象生成任务解耦为两个协同阶段,从而能够创建具有明确、可编辑零件结构的 3D 资源。
Elevate3D 是一个新颖的框架,可将易于获取的低质量 3D 资源转换为更高质量的资源。它增强了低质量的 3D 模型,通过迭代纹理和几何细化将其转换为高质量资源。Elevate3D 的核心是 HFS-SDEdit,这是一种专门的纹理增强方法,可以在显著提高纹理质量的同时,保留外观和几何形状,并修复其质量下降的问题。
Elev
Ultra3D 是一个高效的 3D 生成框架,可在不影响质量的情况下显著加速稀疏体素建模。它利用紧凑的 VecSet 表示在第一阶段高效地生成粗略的对象布局,从而减少 token 数量并加速体素坐标预测。这种方法能够以 1024 的分辨率生成高分辨率 3D 图像,在视觉保真度和用户偏好方面均达到了最佳性能。
Ultra3D 的核
Diffuman4D 是一种从稀疏视角视频合成 4D 一致性人类视角的新颖方法。它能够从稀疏视角视频中对真人表演进行高保真自由视角渲染。给定稀疏视角视频,Diffuman4D 会根据这些输入生成 4D 一致性多视角视频,并使用输入和生成的视频重建真人表演的高保真 4DGS 模型。这允许实时渲染具有复杂服装和动作的真人表演的新视角。
原始分辨率图像合成 (NiT) 是一种新颖的生成式建模范式,能够合成任意分辨率和宽高比的图像。与传统的扩散模型不同,NiT 直接对原始分辨率图像数据进行建模,克服了固定感受野、位置编码和不稳定训练动态的局限性。这种方法使 NiT 能够在各种分辨率和宽高比下生成高质量图像,使其成为适用于各种应用的多功能工具。
NiT 引入了三项关
Step1X-3D 是一个用于生成高保真且可控的纹理 3D 资源的开放框架。它通过严格的数据管理流程、两阶段 3D 原生架构以及模型、训练代码和自适应模块的完整开源版本,解决了 3D 生成中数据稀缺、算法限制和生态系统碎片化的挑战。该框架采用基于感知器的潜在编码和锐利边缘采样来保留细节,从而生成严密的 TSDF 表示。
Step
LightLab 是一种基于漫反射的方法,用于对单幅图像中的光源进行细粒度的参数化控制。它可以改变可见光源的强度和颜色以及环境光的强度,并可以将虚拟光源插入场景中。该方法利用漫反射模型的照片级真实感先验,通过描绘受控照明变化的配对样本,直接在图像空间中隐式模拟复杂的光效,例如间接照明、阴影和反射。
LightLab 支持丰富的照
DreamO 是一个统一的图像定制框架,使用户能够生成具有各种条件的高质量图像。它支持广泛的输入,包括人物、物体和动物,并可用于图像到图像的转换、图像处理和图像生成等任务。DreamO 旨在成为一个灵活高效的框架,可用于各种应用,包括计算机视觉、机器人技术和图形学。
DreamO 建立在基于 VAE 的特征编码架构之上,使其能够
PS2 Filter AI 是一款动态在线工具,旨在将照片和视频转换为让人联想到 PlayStation 2 图形的独特视觉风格。该平台迎合游戏爱好者、内容创作者以及任何希望在数字媒体中注入怀旧气息的人。通过利用先进的算法,PS2 Filter AI 捕捉了 21 世纪初游戏美学的精髓,让用户重温历史上最受欢迎的游戏机之一的魅力。
Creately VIZ 是一款由 AI 驱动的视觉智能工具,旨在增强协作并简化创建图表和视觉模型的过程。它无缝集成到各种工作流程中,尤其是在 Microsoft Teams 中,允许团队根据自然语言提示生成视觉效果。此功能改变了团队与其想法和项目的互动方式,使复杂信息可视化和有效协作变得更加容易。
Creately VIZ 的
Diagram.chat 是一款人工智能图表工具,旨在简化各种图表的创建和管理,包括流程图、UML 图和组织结构图。该平台旨在通过提供直观的界面,利用人工智能简化图表绘制过程,从而提高专业人士、教育工作者和学生的工作效率。通过将用户友好的功能与先进的人工智能功能相结合,Diagram.chat 允许用户快速高效地创建复杂的视觉表示。