寻找最新最佳的3D人工智能。浏览最全面的AI数据库,每日持续更新。
最新
KLING 3.0 是一款下一代视频生成平台,旨在直接从文本或图像提示创建高度逼真、影院级的素材。它专注于长篇、时间连贯的视频,使用户能够生成具有一致角色、稳定镜头运动和丰富环境细节的复杂场景。凭借针对高分辨率输出和对运动及风格进行精细控制而优化的模型架构,KLING 3.0 旨在为那些需要在不牺牲视觉保真度的情况下快速迭代的专业创作者服务。
VIGA 是一个多模态代理,它将视觉视为逆向图形,通过 Blender 中的分析-合成循环,将图像重建为可编辑的 3D 场景程序。
通过将多模态推理与不断发展的上下文记忆交织在一起,VIGA 可以“感知编码”场景、它们的物理特性和交互,使用基本元素或高质量生成资产从头开始构建它们。
在新的 BlenderBenc
SJinn 是一款强大的图像和视频内容创作工具。它使用户能够轻松地将他们的创意愿景变为现实。通过简单地描述所需内容,SJinn 可以利用其先进的功能来创作高质量的图像、视频、音频和 3D 内容,从而实现用户的需求。
该平台提供多种模式,包括代理模式(Agent Mode)和工具模式(Tool Mode),为用户在内容创作过程中提供了
FrankenMotion 是一个用于部件级人体运动生成和组合的框架,能够在保持全局语义一致性的同时,对单个身体部件实现精细控制。它由一个通过大型语言模型构建的新型分层弗兰肯斯坦数据集提供支持。该数据集提供了原子化的、时间感知的部件级文本注释,允许在精细的时间分辨率下实现异步和语义上不同的部件运动。
FrankenMotion 模型
VerseCrafter 是一个可控的视频世界模型,提供对相机和多物体运动的明确的 4D 几何控制。它从大规模的野外数据中学习一个逼真且可控的视频世界先验,能够处理具有强大时空一致性的复杂动态场景。该模型允许用户指定目标相机轨迹和多物体 3D 高斯轨迹,从而在各种动态和静态场景中实现稳健的控制。
VerseCrafter 的框架包括
UltraShape 1.0 是一个高保真 3D 形状生成系统,它围绕一个可扩展的两阶段扩散框架构建,专门用于高质量的几何合成。它专注于生成详细、准确的 3D 形状,而不仅仅是粗糙的网格,使其适用于对精确结构和干净拓扑有要求的应用,例如内容创作、模拟和数字资产管道。通过将几何质量作为主要目标,UltraShape 1.0 旨在弥合快速生成模型与生产级
UniSH 是一个用于联合度量级 3D 场景和人体重建的统一前馈框架。它以单目视频作为输入,能够有效地估计场景几何、相机参数和 SMPL 参数。该框架融合了来自场景重建和 HMR 的强大且不同的先验知识,并通过两个核心组件进行训练,以优化人体表面细节和几何对应关系。
UniSH 的网络架构由重建分支和人体分支组成。重建分支预测每帧的
HY-Motion 1.0 是腾讯混元团队开发的开源文本到 3D 人体动作生成模型,旨在直接从自然语言描述中自动生成高质量的角色动画。它专注于生成可集成到标准内容创建流程中的 3D 骨架动作,使用户能够通过文字描述动作并获得物理上合理的运动序列,而无需手动设置关键帧。该项目专为面向生产的工作流程而设计,提供了代码和模型权重,可用于合成从日常行为到高动态
SCAIL 代表了角色图像动画领域的突破性进展,旨在生成逼真且时间连贯的视频,其中角色的外观与提供的参考图像完美一致,同时忠实地复制驱动视频中复杂的动作。SCAIL 的核心是引入了一种新颖的可扩展 3D 姿态表示,它通过使用 GPU 上的光线步进(ray marching)的有效 3D 体素管线,将传统 2D 骨架和参数化 SMPL 模型的优势统一起来
GPT 5.2 是 OpenAI 的最新前沿模型系列,专为以更高的质量、更低的错误率和比前几代更强的推理能力来处理专业知识工作和长期代理工作流程而构建。它引入了三个主要变体——GPT-5.2 Instant、GPT-5.2 Thinking 和 GPT-5.2 Pro——每个变体都针对速度和深度的不同权衡进行了微调,并且都可以在 ChatGPT 的付费
UGCraft AI 专为彻底改变 Roblox 用户生成内容 (UGC) 创作者的工作流程而设计,提供从抽象概念到经过抛光、可发布数字物品的无与伦比的途径。该平台通过允许用户通过简单的文本提示或图像参考生成详细的配饰和服装,消除了传统上与 3D 资产创建相关的较高门槛。无论创作者设想的是错综复杂的哥特式洛丽塔时装还是未来主义的赛博朋克头饰,该工具都能
Mago Studio 是一款先进的人工智能视频工具,专为旨在精确、灵活地转换任何素材的创意专业人士设计。它通过视频到视频的工作流程,使用户能够轻松地为实景拍摄或 3D 动画添加风格。该工具特别适用于动画、电影、游戏过场动画和广告制作,有助于降低制作成本并加快创意工作流程。它的功能扩展到使雄心勃勃的视觉概念得以实现,使创作者能够探索独特的审美,提升音乐
Hunyuan3D-Part 是一个从图像生成 3D 部件的管道,包含两个关键组件:P3-SAM 和 X-Part。整体网格输入到部件检测模块 P3-SAM 中,以获取语义特征、部件分割和部件边界框。然后,X-Part 从 P3-SAM 的输出生成完整的部件。该管道能够从图像生成高质量的 3D 部件,并应用于计算机视觉、机器人和计算机辅助设计等各个领域
Uni-MoE-2.0-Omni 是一个基于强大的 Qwen2.5-7B 核心构建的先进全模态大型模型。它代表了对先前版本的重大重建和改进,融入了旨在增强多模态理解和生成能力的新架构和训练范式。该模型无缝集成了多种模态,如音频、语音、图像、文本和视频,能够对各种类型的输入数据进行全面的处理。
该模型引入了多项关键进步,包括统一的语音
SAM 3D 是一个强大的 3D 重建模型,能够从 2D 图像创建详细的 3D 场景。该模型是利用大规模真实世界数据来解决物理世界的复杂性和丰富性的一个重要进步。通过 SAM 3D,我们推出了两个新模型:SAM 3D Objects,它实现了物体和场景重建;SAM 3D Body,它专注于人体和形状估计。这两个模型都提供了强大、最先进的性能,将静态 2
VideoFrom3D 从粗糙的几何体、摄像机轨迹和参考图像合成高质量的 3D 场景视频。该方法简化了 3D 图形设计工作流程,实现了灵活的设计探索和交付成果的快速制作。从粗糙几何体合成视频的一个简单方法可能是基于几何结构来调控视频扩散模型。然而,现有的视频扩散模型由于难以同时模拟视觉质量、运动和时间一致性,在生成复杂场景的高保真结果时存在困难。
Marble 是 World Labs 开发的首个商用生成式世界模型,该公司由人工智能先驱李飞飞领导。它专注于使用文本提示、图像、视频和 3D 布局图等各种输入方法生成可编辑且持久的 3D 环境。该产品提供高保真度的空间一致性,并支持对生成的世界进行无缝探索,使其适用于游戏开发、电影视觉效果、虚拟现实和机器人模拟等应用。Marble 的独特之处在于它允
Mochi 1 是一款先进的开源视频生成模型,以其高保真度的运动和对文本提示的强力遵循而闻名。它在运动质量和提示对齐方面实现了显著飞跃,推动了开源视频创作的极限。Mochi 1 采用宽松的 Apache 2.0 许可证,可用于个人和商业用途,重点是照片级真实感视频生成,而非动画内容。该模型能够在 30 帧/秒的速度下产生流畅的视频输出,时长可达 5.4
Stable Diffusion 3.5 是 Stability AI 发布的一款强大的文生图生成模型,具有多种针对不同创意和专业需求的模型变体。此次发布包括 Stable Diffusion 3.5 Large、Large Turbo 和 Medium 版本,每个版本都旨在平衡图像质量、速度和提示词遵循度。这些模型使用户能够创建具有卓越保真度的高质量
Hunyuan Video 1.5 是一款视频生成模型,仅用 83 亿参数即可提供顶级质量,显著降低了使用门槛。它可以在消费级 GPU 上流畅运行,使每位开发者和创作者都能轻松使用。此存储库提供了生成创意视频所需的实现和工具。该模型实现了最先进的视觉质量和运动连贯性,并支持在消费级 GPU 上高效推理。这一成就建立在几个关键组件之上,包括精心策划的数据