寻找最新最佳的3D人工智能。浏览最全面的AI数据库,每日持续更新。
最新
TRELLIS 3D AI 是一款尖端的工具,旨在通过将标准的二维图像转换为详细的三维模型,彻底改变三维资产的创建过程。此过程由先进技术驱动,该技术分析上传图像的视觉数据,以重建复杂的几何形状并应用生动、准确的纹理。它经过精心设计,可利用独特的 SLAT 表示法来保持源材料的关键结构元素,从而实现专业级输出,使其可供广泛的创作者使用,这些创作者寻求高质
Banana AI 是一款尖端的、完全免费的照片编辑应用程序,它利用先进的生成模型的强大功能,彻底改变用户处理图像处理的方式。通过接受简单的文本指令,用户可以控制精确的编辑、应用全面的风格转换或重建上传图像中的视觉元素。这种由文本提示驱动的工作流程带来了一种直观且高效的编辑体验,在几秒钟内就能产生一致的高质量视觉效果,而无需具备复杂的图形设计软件的先验
VeeSpark 的 AI 视频生成器是一款功能强大的工具,旨在轻松将您的创意概念转化为引人入胜的视频。无论您是拥有完整的脚本、一系列故事板框架,还是仅仅拥有一个引人入胜的想法,我们的 AI 引擎都能高效地将您的输入转化为高质量的视频内容。这使其成为需要快速有效地制作引人入胜的视觉效果的内容创作者、营销专业人士和教育工作者的理想解决方案。该生成器简化了
ASMR AI 是一个尖端平台,旨在利用 Google Veo 3 技术的强大功能,即时制作沉浸式 AI ASMR 视频。这款创新工具允许用户通过文本提示和图像输入生成高质量的 ASMR 内容,并提供快速和高质量生成模式。它专注于提供真实的 ASMR 触发音效,包括耳语和舒缓的声音,以提供极致的放松体验。借助 ASMR AI,用户可以轻松地将自己的想法
VoxDeck 是一款人工智能演示文稿创作工具,它彻底改变了演示文稿的制作流程,将简单的文本提示或上传的材料转化为视觉效果惊艳的专业幻灯片。它擅长打造沉浸式、影院级的幻灯片体验,并运用 3D 图表、交互式视觉效果和逼真的头像等元素,动态地讲述和呈现内容。该工具旨在通过自动化大部分设计和创作流程,节省专业人士、教育工作者和商业用户的时间和精力,同时确保演
Ultra3D 是一个高效的 3D 生成框架,可在不影响质量的情况下显著加速稀疏体素建模。它利用紧凑的 VecSet 表示在第一阶段高效地生成粗略的对象布局,从而减少 token 数量并加速体素坐标预测。这种方法能够以 1024 的分辨率生成高分辨率 3D 图像,在视觉保真度和用户偏好方面均达到了最佳性能。
Ultra3D 的核
PhysX-3D 是一种端到端的基于物理的 3D 资源生成范式。它旨在通过提出 PhysXNet 来弥补基于物理标注的 3D 数据集中的关键空白。PhysXNet 是首个基于物理的 3D 数据集,系统地涵盖五个基本维度:绝对尺度、材质、可供性、运动学和功能描述。该数据集能够高效地从原始 3D 资源创建基于物理的资源,从而促进能够生成物理可信资源的 3D
SpatialTrackerV2 是一个用于 3D 点追踪的全新框架,可估算单目视频中任意 2D 像素的世界空间 3D 轨迹。与以往依赖离线深度和姿态估计器的方法不同,我们的方法将 3D 运动分解为场景几何、摄像机自运动和细粒度的逐点运动,所有这些都在一个完全可微分的端到端架构中进行。这种统一的设计支持跨多种数据源进行可扩展的训练,包括合成序列、摆拍的
Elevate3D 是一个新颖的框架,可将易于获取的低质量 3D 资源转换为更高质量的资源。它增强了低质量的 3D 模型,通过迭代纹理和几何细化将其转换为高质量资源。Elevate3D 的核心是 HFS-SDEdit,这是一种专门的纹理增强方法,可以在显著提高纹理质量的同时,保留外观和几何形状,并修复其质量下降的问题。
Elev
OmniVCus 是一种前馈式主体驱动的视频定制方法,允许多模态控制条件。它可以组合不同的输入信号来定制视频,包括主体图像、文本指令、深度序列、掩模序列和摄像机轨迹。该方法旨在通过激活更多训练主体的帧嵌入来实现推理中的多主体定制,并通过对齐条件标记和噪声标记的帧嵌入来从控制信号中提取指导。
OmniVCus 已被证明在各种视频定
OmniPart 是一个用于生成零件感知型 3D 对象的新型框架,它在保持稳健结构内聚力的同时,实现了组件之间的高度语义解耦。该框架旨在克服传统生成方法仅能生成单一形状的局限性,从而限制了它们在交互式应用中的实用性。OmniPart 以独特的方式将复杂的 3D 对象生成任务解耦为两个协同阶段,从而能够创建具有明确、可编辑零件结构的 3D 资源。
DeepVerse 是一个用作世界模型的 4D 自回归视频生成模型。它采用文本表示作为通用控制模态,从而能够最大限度地利用基础视频生成模型中固有的条件控制先验。这种设计选择具有两个主要优势:它能够跨不同的控制器架构实现可扩展的适用性,并展示跨叙事视角的稳健控制一致性。DeepVerse 通过对 4D 表示分布进行建模,实现了时间连贯性和长期记忆。
Direct3D-S2 是一个基于稀疏体积的可扩展 3D 生成框架,可在显著降低训练成本的同时实现卓越的输出质量。它引入了空间稀疏注意力 (SSA) 机制,显著提升了扩散变换器 (DiT) 在稀疏体积数据上的计算效率。这使得模型能够有效地处理稀疏体积内的大型标记集,使前向传播速度提升 3.9 倍,后向传播速度提升 9.6 倍。
Pixel3DMM 是一款经过微调的 DINO ViT,用于逐像素表面法线和 UV 坐标预测。它专为单图像 3D 人脸重建而设计,并利用了 DINO 基础模型的潜在特征。该模型引入了定制的表面法线和 UV 坐标预测头,并在三个高质量的 3D 人脸数据集上针对 FLAME 网格拓扑进行训练,最终生成了超过 1000 个身份和 976,000 张图像。这使
ShapeLLM-Omni 是一个原生多模态大型语言模型,能够理解和生成任意序列的 3D 资源和文本。它通过提供理解和生成 3D 内容的能力,弥补了当前多模态模型仅限于图像和文本的缺陷。这是通过训练 3D 矢量量化变分自编码器 (VQVAE) 实现的,该编码器将 3D 对象映射到离散的潜在空间,以实现高效准确的形状表示和重建。
Step1X-3D 是一个用于生成高保真且可控的纹理 3D 资源的开放框架。它通过严格的数据管理流程、两阶段 3D 原生架构以及模型、训练代码和自适应模块的完整开源版本,解决了 3D 生成中数据稀缺、算法限制和生态系统碎片化的挑战。该框架采用基于感知器的潜在编码和锐利边缘采样来保留细节,从而生成严密的 TSDF 表示。
Step
字节跳动 Seed 1.5-VL 是一款强大高效的视觉语言基础模型,专为高级通用多模态理解和推理而设计。它以相对适中的架构实现了顶级性能,配备 532M 视觉编码器和 20B 活动参数 MoE LLM。该模型在复杂推理、OCR、图表理解、视觉基础构建、3D 空间理解和视频理解等多项功能方面均表现出色。
Seed1.5-
HoloTime 是一个框架,它集成了视频扩散模型,可以从单个提示或参考图像生成全景视频,并结合了 360 度 4D 场景重建方法,将生成的全景视频无缝转换为 4D 素材,为用户带来完全沉浸式的 4D 体验。该框架旨在解决现有扩散模型主要专注于建模静态 3D 场景或对象级动态的问题,从而限制了它们提供真正沉浸式体验的能力。
为了
3DV-TON 是一款先进的视频试穿框架,旨在无缝替换视频序列中的服装,并提供高保真、时间一致的效果。传统的视频试穿方法往往难以应对复杂的服装图案和多样的体态,而 3DV-TON 则引入了一种基于漫射的、由纹理 3D 网格引导的方法。这种明确的 3D 引导机制使系统能够直接参考服装纹理运动,确保服装的过渡在整个视频中保持逼真和连贯。通过利用这些可动画化
LHM 是一个突破性的模型,旨在通过单张图像快速、高保真地重建可动画的 3D 人体。它利用多模态 Transformer 架构,通过注意力机制有效地编码人体位置特征和图像特征,解决了分离几何形状、外观和变形的复杂挑战。这能够保留服装的几何形状和纹理细节,并通过 3D 高斯分布生成逼真的 3D 虚拟形象。该模型引入了一种头部特征金字塔编码方案,用于聚合头