寻找最新最佳的3D人工智能。浏览最全面的AI数据库,每日持续更新。
最新
VeeSpark 的 AI 视频生成器是一款功能强大的工具,旨在轻松将您的创意概念转化为引人入胜的视频。无论您是拥有完整的脚本、一系列故事板框架,还是仅仅拥有一个引人入胜的想法,我们的 AI 引擎都能高效地将您的输入转化为高质量的视频内容。这使其成为需要快速有效地制作引人入胜的视觉效果的内容创作者、营销专业人士和教育工作者的理想解决方案。该生成器简化了
ASMR AI 是一个尖端平台,旨在利用 Google Veo 3 技术的强大功能,即时制作沉浸式 AI ASMR 视频。这款创新工具允许用户通过文本提示和图像输入生成高质量的 ASMR 内容,并提供快速和高质量生成模式。它专注于提供真实的 ASMR 触发音效,包括耳语和舒缓的声音,以提供极致的放松体验。借助 ASMR AI,用户可以轻松地将自己的想法
VoxDeck 是一款人工智能演示文稿创作工具,它彻底改变了演示文稿的制作流程,将简单的文本提示或上传的材料转化为视觉效果惊艳的专业幻灯片。它擅长打造沉浸式、影院级的幻灯片体验,并运用 3D 图表、交互式视觉效果和逼真的头像等元素,动态地讲述和呈现内容。该工具旨在通过自动化大部分设计和创作流程,节省专业人士、教育工作者和商业用户的时间和精力,同时确保演
Ultra3D 是一个高效的 3D 生成框架,可在不影响质量的情况下显著加速稀疏体素建模。它利用紧凑的 VecSet 表示在第一阶段高效地生成粗略的对象布局,从而减少 token 数量并加速体素坐标预测。这种方法能够以 1024 的分辨率生成高分辨率 3D 图像,在视觉保真度和用户偏好方面均达到了最佳性能。
Ultra3D 的核
PhysX-3D 是一种端到端的基于物理的 3D 资源生成范式。它旨在通过提出 PhysXNet 来弥补基于物理标注的 3D 数据集中的关键空白。PhysXNet 是首个基于物理的 3D 数据集,系统地涵盖五个基本维度:绝对尺度、材质、可供性、运动学和功能描述。该数据集能够高效地从原始 3D 资源创建基于物理的资源,从而促进能够生成物理可信资源的 3D
OmniPart 是一个用于生成零件感知型 3D 对象的新型框架,它在保持稳健结构内聚力的同时,实现了组件之间的高度语义解耦。该框架旨在克服传统生成方法仅能生成单一形状的局限性,从而限制了它们在交互式应用中的实用性。OmniPart 以独特的方式将复杂的 3D 对象生成任务解耦为两个协同阶段,从而能够创建具有明确、可编辑零件结构的 3D 资源。
Elevate3D 是一个新颖的框架,可将易于获取的低质量 3D 资源转换为更高质量的资源。它增强了低质量的 3D 模型,通过迭代纹理和几何细化将其转换为高质量资源。Elevate3D 的核心是 HFS-SDEdit,这是一种专门的纹理增强方法,可以在显著提高纹理质量的同时,保留外观和几何形状,并修复其质量下降的问题。
Elev
SpatialTrackerV2 是一个用于 3D 点追踪的全新框架,可估算单目视频中任意 2D 像素的世界空间 3D 轨迹。与以往依赖离线深度和姿态估计器的方法不同,我们的方法将 3D 运动分解为场景几何、摄像机自运动和细粒度的逐点运动,所有这些都在一个完全可微分的端到端架构中进行。这种统一的设计支持跨多种数据源进行可扩展的训练,包括合成序列、摆拍的
OmniVCus 是一种前馈式主体驱动的视频定制方法,允许多模态控制条件。它可以组合不同的输入信号来定制视频,包括主体图像、文本指令、深度序列、掩模序列和摄像机轨迹。该方法旨在通过激活更多训练主体的帧嵌入来实现推理中的多主体定制,并通过对齐条件标记和噪声标记的帧嵌入来从控制信号中提取指导。
OmniVCus 已被证明在各种视频定
DeepVerse 是一个用作世界模型的 4D 自回归视频生成模型。它采用文本表示作为通用控制模态,从而能够最大限度地利用基础视频生成模型中固有的条件控制先验。这种设计选择具有两个主要优势:它能够跨不同的控制器架构实现可扩展的适用性,并展示跨叙事视角的稳健控制一致性。DeepVerse 通过对 4D 表示分布进行建模,实现了时间连贯性和长期记忆。
Pixel3DMM 是一款经过微调的 DINO ViT,用于逐像素表面法线和 UV 坐标预测。它专为单图像 3D 人脸重建而设计,并利用了 DINO 基础模型的潜在特征。该模型引入了定制的表面法线和 UV 坐标预测头,并在三个高质量的 3D 人脸数据集上针对 FLAME 网格拓扑进行训练,最终生成了超过 1000 个身份和 976,000 张图像。这使
Direct3D-S2 是一个基于稀疏体积的可扩展 3D 生成框架,可在显著降低训练成本的同时实现卓越的输出质量。它引入了空间稀疏注意力 (SSA) 机制,显著提升了扩散变换器 (DiT) 在稀疏体积数据上的计算效率。这使得模型能够有效地处理稀疏体积内的大型标记集,使前向传播速度提升 3.9 倍,后向传播速度提升 9.6 倍。
ShapeLLM-Omni 是一个原生多模态大型语言模型,能够理解和生成任意序列的 3D 资源和文本。它通过提供理解和生成 3D 内容的能力,弥补了当前多模态模型仅限于图像和文本的缺陷。这是通过训练 3D 矢量量化变分自编码器 (VQVAE) 实现的,该编码器将 3D 对象映射到离散的潜在空间,以实现高效准确的形状表示和重建。
Step1X-3D 是一个用于生成高保真且可控的纹理 3D 资源的开放框架。它通过严格的数据管理流程、两阶段 3D 原生架构以及模型、训练代码和自适应模块的完整开源版本,解决了 3D 生成中数据稀缺、算法限制和生态系统碎片化的挑战。该框架采用基于感知器的潜在编码和锐利边缘采样来保留细节,从而生成严密的 TSDF 表示。
Step
字节跳动 Seed 1.5-VL 是一款强大高效的视觉语言基础模型,专为高级通用多模态理解和推理而设计。它以相对适中的架构实现了顶级性能,配备 532M 视觉编码器和 20B 活动参数 MoE LLM。该模型在复杂推理、OCR、图表理解、视觉基础构建、3D 空间理解和视频理解等多项功能方面均表现出色。
Seed1.5-
HoloTime 是一个框架,它集成了视频扩散模型,可以从单个提示或参考图像生成全景视频,并结合了 360 度 4D 场景重建方法,将生成的全景视频无缝转换为 4D 素材,为用户带来完全沉浸式的 4D 体验。该框架旨在解决现有扩散模型主要专注于建模静态 3D 场景或对象级动态的问题,从而限制了它们提供真正沉浸式体验的能力。
为了
3DV-TON 是一款先进的视频试穿框架,旨在无缝替换视频序列中的服装,并提供高保真、时间一致的效果。传统的视频试穿方法往往难以应对复杂的服装图案和多样的体态,而 3DV-TON 则引入了一种基于漫射的、由纹理 3D 网格引导的方法。这种明确的 3D 引导机制使系统能够直接参考服装纹理运动,确保服装的过渡在整个视频中保持逼真和连贯。通过利用这些可动画化
SpatialLM 是一个先进的 3D 大型语言模型,专门用于处理和解读 3D 点云数据,将非结构化几何信息转换为结构化且语义丰富的 3D 场景表征。它可以识别和分类墙壁、门窗等建筑元素,并提供带有精确语义标签的定向边界框。与早期需要专用硬件进行数据采集的方法不同,SpatialLM 支持多种输入源,包括单目视频序列、RGBD 图像和 LiDAR 传感
Hi3DGen 是一个尖端框架,旨在利用一种新颖的法线桥接技术,从单张 2D 图像生成高保真 3D 几何体。由于 RGB 图像中的域间隙、光照变化和固有的模糊性,传统方法通常难以准确再现细粒度的几何细节。Hi3DGen 通过将图像到几何体的生成过程分解为两个阶段来解决这些挑战:首先,使用注入噪声的双流网络从图像中估计详细的法线图,该网络可以稳定和锐化预
DreamActor-M1 是一款基于扩散变换技术的先进人体图像动画框架,能够通过单张静态图像创建高度逼真且富有表现力的动画。它能够对面部表情和全身动作进行精细的整体控制,使用户能够为肖像和全身镜头制作动画,且不会损失细节或画质。该模型采用混合运动引导系统,整合了隐式面部表征、3D 头部球体和 3D 身体骨骼,从而生成自然且能够保留身份的动画,捕捉细微