寻找最新最佳的3D 视觉人工智能。浏览最全面的AI数据库,每日持续更新。
最新
PhysX-Omni 是一个统一的模拟就绪物理 3D 生成框架,旨在生成具有物理属性的刚性、可变形和铰接的 3D 资产。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 PhysX-Omni 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的 AI 生成或 A
LiTo 是一种表面光场标记化方法,专为具有依赖于视图的外观的高质量图像到 3D 生成和重建而设计。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 LiTo 不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
PanoWorld 是一种生成空间世界模型,旨在根据平面图和风格参考对 VR 风格的游览进行一致的全屋全景合成。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 PanoWorld 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的
CubePart 是一种开放词汇的零件可控 3D 生成器,设计用于根据文本提示和零件架构创建多零件 3D 网格对象。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 CubePart 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的 AI 生成或 AI 分析
GenRecon 是一个多视图 3D 场景重建框架,旨在从休闲智能手机视频或多视图 RGB 图像生成完整的可编辑 PBR 就绪室内场景网格。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 GenRecon 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人
Pantheon360是一种3D感知的360度视频扩散模型,专为数字孪生生成而设计,具有全景覆盖、精确的摄像机控制和时空一致性。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 Pantheon360 并不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的人工智能
TriSplat 是一种前馈 3D 场景重建方法,旨在从稀疏视图生成可用于仿真的网格状场景重建。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 TriSplat 不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
Map2World 是一个分段图条件文本到 3D 世界生成框架,用于从用户定义的顶视图布局创建可探索的 3D 环境。它解决了现有 3D 世界生成方法的局限性,这些方法依赖于刚性网格或在大型场景中产生不一致的对象比例。使用Map2World,用户可以指定任意片段图和文本条件来指导生成的世界的结构、规模和语义布局。
该框架以免训练的方
PhyMotion 是一种结构化 3D 运动奖励,用于改进和评估基于物理的人类视频生成。它针对的是视频生成中的一个主要弱点:模型可以生成具有视觉吸引力的人类视频,但仍然包含漂浮的身体、平衡破坏、接触不良或物理上难以置信的运动。 PhyMotion 提供了一个超越 2D 感知质量的奖励信号,并评估生成的人体运动是否可以合理地存在于 3D 中。
PhysForge 是一个框架,用于为交互式虚拟世界和具体 AI 环境生成基于物理的 3D 资产。它解决了许多 3D 生成系统的局限性:视觉上合理的资产通常缺乏交互所需的物理属性,例如材料行为、功能部件、运动学约束和模拟就绪结构。 PhysForge 专注于可以操作的资产,而不仅仅是查看。
该系统采用由 PhysDB 支持的两阶段
MolmoAct 2是Ai2的开放式机器人基础模型,旨在帮助机器人以更强的感知和动作推理能力执行现实世界的操纵任务。它重点关注语言模型智能和物理世界执行之间的差距,其中机器人必须解释场景、理解任务意图、3D 推理,并产生随着时间的推移保持稳健的动作。该模型适用于构建机器人策略的研究人员,这些策略需要的不仅仅是简单的视觉识别或脚本控制。
Pixal3D 是一个图像到 3D 生成框架,旨在创建与输入图像保持像素对齐的高保真 3D 资源。它解决了图像条件 3D 生成中的常见故障:模型可能会创建合理的几何形状,但最终资产可能会在像素级别偏离参考视图。 Pixal3D 专注于忠实的重建式对应,同时仍然保留完整 3D 资产合成所需的生成灵活性。
该系统以与输入视图一致的方式
TrackCraft3R 是一种开源密集 3D 跟踪系统,可重新利用预训练的视频扩散变换器进行轨迹预测。给定单目视频以及预测的深度和相机信息,它可以在单次前向传播中预测密集的 3D 轨迹。该项目针对的是从事普通视频输入的运动、几何和跟踪研究的计算机视觉研究人员。
该系统以 Wan2.1-T2V-1.3B 为基础,作为预训练视频扩散
D-Rex 是一个扩散渲染框架,适用于逼真、可重新照明、富有表现力的全身人体化身。它专为远程呈现、游戏、虚拟制作和数字人类等应用而设计,在这些应用中,化身必须在视觉上逼真,并且在不断变化的灯光和表情下可控。该系统专注于特定人物的化身,支持自由视点渲染和富有表现力的动画,同时保留逼真的外观。
主要技术贡献是通过将重新照明视为具有扩散
RecGen 是一个生成 3D 重建框架,用于从稀疏 RGB-D 观测中恢复完整的多对象场景。即使场景的大部分被遮挡隐藏,RecGen 也不会将每个可见片段视为整个对象,而是估计完整的对象形状、纹理和 6-DoF 姿势。该系统专为机器人、嵌入式人工智能、模拟和场景理解工作流程而设计,其中相机可能只能观察部分视图,但下游系统仍然需要可以操纵、模拟或评估的
WildDet3D 是一种几何感知架构,可在野外进行快速 3D 检测。它支持使用文本、点和框提示以及可选深度信息的开放词汇单目 3D 对象检测。该产品专为现实世界的视觉理解而设计,其中系统需要从普通图像中识别和定位 3D 对象。
该系统将开放词汇提示与单眼 3D 几何推理相结合。文本提示指定类别,点或框提示提供空间指导,可选深度可
VGGRPO 是一个研究项目,专注于通过优化框架改进几何感知视觉生成或重建。它专为模型必须尊重视觉几何而不仅仅是产生有吸引力的像素的任务而设计。该产品与 3D 重建、相机感知生成、视图一致性和几何引导 AI 系统相关。
该方法名称表明将 VGG 式视觉或几何引导与 GRPO 式优化相结合。从技术上讲,这种系统可以使用奖励或偏好优化
Waypoint 1.5 是 Overworld 的实时 AI 世界模型,旨在将交互式生成的世界带入日常 GPU。它专注于通过减少通常与高端生成环境相关的硬件障碍,使世界模拟变得更容易。该产品面向那些想要实时世界而不依赖昂贵的工作站规模推理的创作者、开发者和研究人员。
该系统围绕实时世界生成和运行时效率进行了优化,使用模型和渲染改
Alaya Renderer 是一个生成世界渲染器,为视频生成渲染提供了缩放配方。它是围绕来自 AAA 游戏、逆渲染、重新光照和游戏编辑的大规模 G 缓冲区数据而设计的。该产品与构建可控视频渲染系统的团队相关,其中需要操纵几何形状、材质、照明和场景属性,而不是烘焙成像素。
该系统使用结构化渲染信号(例如 G 缓冲区)来指导视频生成
LGTM 是 Less Gaussians、Texture More 的缩写,是一个 3D 表示项目,专注于通过使用更少的基元同时保留或增强纹理细节来改进基于高斯的渲染。它专为想要更高效的 3D 场景表示而不放弃视觉质量的用户而设计。该产品与神经渲染、高斯喷射、重建和实时 3D 可视化相关。
该方法可能会减少高斯基元的数量,并通过