寻找最新最佳的3D 建模人工智能。浏览最全面的AI数据库,每日持续更新。
最新
World Tracing 是一种像素对齐的生成式几何方法,用于预测可见表面之外的分层 3D 世界。它可以从单张图像或短时动态输入中估计物体、场景和运动内容的多层几何,而不只是最前方可见的深度。
项目页面展示了物体、场景和动态预测器,并提供 6 层物体与场景几何模型以及 16 帧动态模型的链接。它支持免训练的纹理网格生成、3D 场
Actionable World Representation 通过 WorldString 展示,是一种用于构建物理对象神经数字孪生的方法。它从关键点条件 3D 建模中学习 token 分配和误差图,使对象几何能够真正用于机器人和仿真场景中的操作。
该项目面向关节式、蒙皮式、柔性、可变形以及机器人对象,页面展示了机器人手、SMP
MoVerse 是一种实时视频世界建模方法,可从单张窄视场图像构建可导航的 3D 世界。它将世界构建与观察渲染分离,使可复用的全景高斯骨架能够支持交互式视频漫游。
该流程先把输入图像扩展为重力对齐的 360 度全景图,再将其提升为 3D 高斯骨架,随后沿用户控制的相机轨迹渲染逼真的视频。项目页面报告在单张 RTX 4090 上可实
CubePart 是一种开放词汇的零件可控 3D 生成器,设计用于根据文本提示和零件架构创建多零件 3D 网格对象。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 CubePart 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的 AI 生成或 AI 分析
TriSplat 是一种前馈 3D 场景重建方法,旨在从稀疏视图生成可用于仿真的网格状场景重建。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 TriSplat 不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
LiTo 是一种表面光场标记化方法,专为具有依赖于视图的外观的高质量图像到 3D 生成和重建而设计。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 LiTo 不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
PhysX-Omni 是一个统一的模拟就绪物理 3D 生成框架,旨在生成具有物理属性的刚性、可变形和铰接的 3D 资产。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 PhysX-Omni 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的 AI 生成或 A
GenRecon 是一个多视图 3D 场景重建框架,旨在从休闲智能手机视频或多视图 RGB 图像生成完整的可编辑 PBR 就绪室内场景网格。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 GenRecon 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人
Pantheon360是一种3D感知的360度视频扩散模型,专为数字孪生生成而设计,具有全景覆盖、精确的摄像机控制和时空一致性。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 Pantheon360 并不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的人工智能
PanoWorld 是一种生成空间世界模型,旨在根据平面图和风格参考对 VR 风格的游览进行一致的全屋全景合成。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 PanoWorld 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的
D-Rex 是一个扩散渲染框架,适用于逼真、可重新照明、富有表现力的全身人体化身。它专为远程呈现、游戏、虚拟制作和数字人类等应用而设计,在这些应用中,化身必须在视觉上逼真,并且在不断变化的灯光和表情下可控。该系统专注于特定人物的化身,支持自由视点渲染和富有表现力的动画,同时保留逼真的外观。
主要技术贡献是通过将重新照明视为具有扩散
Articraft 是一个代理系统,用于生成铰接式 3D 资产,这些资产是为模拟和交互而构建的。它针对具有移动部件的对象,例如烤箱、抽屉、自行车、椅子、灯具和机械组件,而静态网格体在这些情况下是不够的。该系统旨在生成包括功能关节的资产,以便可以在模拟或交互式环境中对其进行操作。
核心工作流程使用编码代理,根据 LLM 友好的 SD
PhysForge 是一个框架,用于为交互式虚拟世界和具体 AI 环境生成基于物理的 3D 资产。它解决了许多 3D 生成系统的局限性:视觉上合理的资产通常缺乏交互所需的物理属性,例如材料行为、功能部件、运动学约束和模拟就绪结构。 PhysForge 专注于可以操作的资产,而不仅仅是查看。
该系统采用由 PhysDB 支持的两阶段
UniMesh 是一种统一的 3D 网格理解和生成系统,它将语义推理、网格创建和网格编辑结合在一个框架中。它旨在帮助模型根据文本提示生成 3D 网格、编辑现有形状以及通过迭代反馈推理网格内容。这使得它对于 3D 资产创建、几何理解和 AI 辅助建模工作流程非常有用。
该系统使用连接图像潜在、网格调节和 3D 生成的管道,使其能够在
Inspatio World 是一个实时交互式 4D 世界模型,可将参考视频转变为动态可探索环境。它专为那些想要超越被动视频播放并与场景进行交互的用户而设计,就好像它是一个可导航的世界一样。该系统与世界模拟、沉浸式媒体、机器人评估和人工智能生成的环境相关。
该产品使用参考视频驱动的世界建模方法,其中输入视频充当场景动态、外观和空间
HY World 2.0是腾讯混元开源的多模态世界模型,用于重建、生成和模拟3D世界。它被设计为一个广泛的世界建模框架,可以跨模式推理并生成结构化的 3D 世界输出。该产品与游戏、机器人、虚拟生产、数字孪生和实体人工智能相关。
该系统将多模式输入与 3D 世界建模相结合,使其能够重建现有环境、生成新环境并支持模拟工作流程。从技术上
LGTM 是 Less Gaussians、Texture More 的缩写,是一个 3D 表示项目,专注于通过使用更少的基元同时保留或增强纹理细节来改进基于高斯的渲染。它专为想要更高效的 3D 场景表示而不放弃视觉质量的用户而设计。该产品与神经渲染、高斯喷射、重建和实时 3D 可视化相关。
该方法可能会减少高斯基元的数量,并通过
AnyRecon 是一个 3D 重建框架,可从任意且无序的稀疏视图构建高质量场景。它专为用户仅进行随意捕获或有限输入帧但仍需要对大场景和长相机轨迹进行可扩展重建的情况而设计。这使得它对于 3D 扫描、场景数字化、虚拟制作和空间人工智能研究非常有用。
该系统将显式几何控制与视频扩散建模相结合,以提高新颖视图合成和重建的一致性。它使用
SegviGen 是一个 3D 分割系统,它重新利用生成建模来实现零件级理解。它没有将生成和分割视为单独的任务,而是使用生成 3D 先验来帮助识别有意义的对象部分。这使其成为结构化感知和几何感知分析的有用产品。
该系统很有价值,因为它将生成表示转变为可以支持下游标记和分解的东西。当对象部分、边界和空间关系很重要时,这种重用会非常有
World Reconstruction From Inconcient Views 是一个 3D 重建项目,可根据视频扩散输出构建世界。它解决的关键挑战是生成的视频帧通常视觉效果很强,但随着时间的推移不一致,这使得直接 3D 重建变得困难。该项目通过将框架对齐到共享坐标系来解决该问题。
该方法使用非刚性对齐来解决不一致问题并生成