寻找最新最佳的3D人工智能。浏览最全面的AI数据库,每日持续更新。
最新
PanoWorld 是一种生成空间世界模型,旨在根据平面图和风格参考对 VR 风格的游览进行一致的全屋全景合成。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 PanoWorld 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的
PhysX-Omni 是一个统一的模拟就绪物理 3D 生成框架,旨在生成具有物理属性的刚性、可变形和铰接的 3D 资产。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 PhysX-Omni 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的 AI 生成或 A
GenRecon 是一个多视图 3D 场景重建框架,旨在从休闲智能手机视频或多视图 RGB 图像生成完整的可编辑 PBR 就绪室内场景网格。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 GenRecon 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人
TriSplat 是一种前馈 3D 场景重建方法,旨在从稀疏视图生成可用于仿真的网格状场景重建。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 TriSplat 不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
Pantheon360是一种3D感知的360度视频扩散模型,专为数字孪生生成而设计,具有全景覆盖、精确的摄像机控制和时空一致性。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 Pantheon360 并不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的人工智能
LiTo 是一种表面光场标记化方法,专为具有依赖于视图的外观的高质量图像到 3D 生成和重建而设计。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 LiTo 不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
CubePart 是一种开放词汇的零件可控 3D 生成器,设计用于根据文本提示和零件架构创建多零件 3D 网格对象。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 CubePart 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的 AI 生成或 AI 分析
PhysForge 是一个框架,用于为交互式虚拟世界和具体 AI 环境生成基于物理的 3D 资产。它解决了许多 3D 生成系统的局限性:视觉上合理的资产通常缺乏交互所需的物理属性,例如材料行为、功能部件、运动学约束和模拟就绪结构。 PhysForge 专注于可以操作的资产,而不仅仅是查看。
该系统采用由 PhysDB 支持的两阶段
PhyMotion 是一种结构化 3D 运动奖励,用于改进和评估基于物理的人类视频生成。它针对的是视频生成中的一个主要弱点:模型可以生成具有视觉吸引力的人类视频,但仍然包含漂浮的身体、平衡破坏、接触不良或物理上难以置信的运动。 PhyMotion 提供了一个超越 2D 感知质量的奖励信号,并评估生成的人体运动是否可以合理地存在于 3D 中。
TrackCraft3R 是一种开源密集 3D 跟踪系统,可重新利用预训练的视频扩散变换器进行轨迹预测。给定单目视频以及预测的深度和相机信息,它可以在单次前向传播中预测密集的 3D 轨迹。该项目针对的是从事普通视频输入的运动、几何和跟踪研究的计算机视觉研究人员。
该系统以 Wan2.1-T2V-1.3B 为基础,作为预训练视频扩散
D-Rex 是一个扩散渲染框架,适用于逼真、可重新照明、富有表现力的全身人体化身。它专为远程呈现、游戏、虚拟制作和数字人类等应用而设计,在这些应用中,化身必须在视觉上逼真,并且在不断变化的灯光和表情下可控。该系统专注于特定人物的化身,支持自由视点渲染和富有表现力的动画,同时保留逼真的外观。
主要技术贡献是通过将重新照明视为具有扩散
RecGen 是一个生成 3D 重建框架,用于从稀疏 RGB-D 观测中恢复完整的多对象场景。即使场景的大部分被遮挡隐藏,RecGen 也不会将每个可见片段视为整个对象,而是估计完整的对象形状、纹理和 6-DoF 姿势。该系统专为机器人、嵌入式人工智能、模拟和场景理解工作流程而设计,其中相机可能只能观察部分视图,但下游系统仍然需要可以操纵、模拟或评估的
MolmoAct 2是Ai2的开放式机器人基础模型,旨在帮助机器人以更强的感知和动作推理能力执行现实世界的操纵任务。它重点关注语言模型智能和物理世界执行之间的差距,其中机器人必须解释场景、理解任务意图、3D 推理,并产生随着时间的推移保持稳健的动作。该模型适用于构建机器人策略的研究人员,这些策略需要的不仅仅是简单的视觉识别或脚本控制。
Articraft 是一个代理系统,用于生成铰接式 3D 资产,这些资产是为模拟和交互而构建的。它针对具有移动部件的对象,例如烤箱、抽屉、自行车、椅子、灯具和机械组件,而静态网格体在这些情况下是不够的。该系统旨在生成包括功能关节的资产,以便可以在模拟或交互式环境中对其进行操作。
核心工作流程使用编码代理,根据 LLM 友好的 SD
MoCam 是一种视频重新摄像方法,用于在具有挑战性的相机轨迹和不完整几何形状下进行新颖的视图合成。它允许用户生成新的摄像机运动,例如大弧线、复杂路径、移动变焦、放大或缩小以及视频的子弹时间效果。该方法被设计为即使在几何先验扭曲、稀疏或不完美的情况下也能工作,这在实际捕获的场景中很常见。
该系统使用结构化去噪动力学来引导扩散过程从
Map2World 是一个分段图条件文本到 3D 世界生成框架,用于从用户定义的顶视图布局创建可探索的 3D 环境。它解决了现有 3D 世界生成方法的局限性,这些方法依赖于刚性网格或在大型场景中产生不一致的对象比例。使用Map2World,用户可以指定任意片段图和文本条件来指导生成的世界的结构、规模和语义布局。
该框架以免训练的方
Pixal3D 是一个图像到 3D 生成框架,旨在创建与输入图像保持像素对齐的高保真 3D 资源。它解决了图像条件 3D 生成中的常见故障:模型可能会创建合理的几何形状,但最终资产可能会在像素级别偏离参考视图。 Pixal3D 专注于忠实的重建式对应,同时仍然保留完整 3D 资产合成所需的生成灵活性。
该系统以与输入视图一致的方式
LGTM 是 Less Gaussians、Texture More 的缩写,是一个 3D 表示项目,专注于通过使用更少的基元同时保留或增强纹理细节来改进基于高斯的渲染。它专为想要更高效的 3D 场景表示而不放弃视觉质量的用户而设计。该产品与神经渲染、高斯喷射、重建和实时 3D 可视化相关。
该方法可能会减少高斯基元的数量,并通过
UniMesh 是一种统一的 3D 网格理解和生成系统,它将语义推理、网格创建和网格编辑结合在一个框架中。它旨在帮助模型根据文本提示生成 3D 网格、编辑现有形状以及通过迭代反馈推理网格内容。这使得它对于 3D 资产创建、几何理解和 AI 辅助建模工作流程非常有用。
该系统使用连接图像潜在、网格调节和 3D 生成的管道,使其能够在
VGGRPO 是一个研究项目,专注于通过优化框架改进几何感知视觉生成或重建。它专为模型必须尊重视觉几何而不仅仅是产生有吸引力的像素的任务而设计。该产品与 3D 重建、相机感知生成、视图一致性和几何引导 AI 系统相关。
该方法名称表明将 VGG 式视觉或几何引导与 GRPO 式优化相结合。从技术上讲,这种系统可以使用奖励或偏好优化