寻找最新最佳的3D人工智能。浏览最全面的AI数据库,每日持续更新。
最新
LOGOS,科学生成对象语言,是一个建立在统一科学语法之上的多领域科学生成框架。它将蛋白质、抗体、小分子、反应、材料和空间相互作用编码为共享词汇中的标记序列。
与使用自然语言作为中介或需要显式 3D 几何网络的系统不同,LOGOS 在域本机表示上运行。诸如蛋白质口袋-配体接触之类的空间关系被离散化和标记化,因此一种自回归模型可以
OmniDirector 是一个相机运动克隆系统,用于对参考视频中的源图像进行动画处理,包括多镜头相机运动,无需交叉配对训练数据。它的目标是动态摄像机运动、多镜头过渡、场景概括和特殊摄像机技术。
该方法通过根据空 3D 空间中的参考摄像机姿势渲染的摄像机网格来表示摄像机运动。在训练期间,该相机网格与其他控件一起注入到 MMDiT
MoVerse 是一种实时视频世界建模方法,可从单张窄视场图像构建可导航的 3D 世界。它将世界构建与观察渲染分离,使可复用的全景高斯骨架能够支持交互式视频漫游。
该流程先把输入图像扩展为重力对齐的 360 度全景图,再将其提升为 3D 高斯骨架,随后沿用户控制的相机轨迹渲染逼真的视频。项目页面报告在单张 RTX 4090 上可实
World Tracing 是一种像素对齐的生成式几何方法,用于预测可见表面之外的分层 3D 世界。它可以从单张图像或短时动态输入中估计物体、场景和运动内容的多层几何,而不只是最前方可见的深度。
项目页面展示了物体、场景和动态预测器,并提供 6 层物体与场景几何模型以及 16 帧动态模型的链接。它支持免训练的纹理网格生成、3D 场
AnchorWorld 是一个具身第一人称世界模拟框架,支持基于视图的演化定制。它利用人体动作控制和与姿态关联的锚点视图,让智能体或玩家能够以第一人称视角探索定制化世界。
每个锚点视图都提供 RGB 图像、用于空间定位的 3D 姿态,以及说明场景应如何变化的演化提示。该方法结合了混合视角的人体动作控制、可演化的锚点视图定制和渐进式
MeshFlow 是一种高效的艺术化网格生成方法,将 MeshVAE 与基于流的扩散 Transformer 结合起来。它在连续潜空间中生成显式网格几何和连接关系,而不是通过自回归方式逐个解码离散面片 token。
该方法先将网格压缩为紧凑的连续潜变量,再通过流匹配并行生成。页面强调约一秒生成速度、相较于自回归风格网格生成约 18
Surflo 是一种流匹配方法,用于从数量可变、无需位姿的图像中重建连贯的 3D 表面。它将所有输入视角融合为固定的全局潜状态,再以任意分辨率解码显式定向表面点。
系统采用基于 VGGT 的编码器、Perceiver 风格压缩器来生成全局状态,并通过逐点流匹配 ODE 解码。它加入基于渲染的通信引导,使独立流动的点仍属于同一个连贯
VideoMDM 是一个基于扩散的框架,可在 2D 监督下生成 3D 人体动作。它直接从单目视频中提取的精确 2D 姿态学习 3D 人体动作先验,从而避免训练时依赖真实 3D 动作捕捉真值。
该方法使用预训练的 2D 到 3D 提升器作为带噪教师,对提升结果进行扩散,并通过 2D 重投影损失监督去噪。页面介绍了深度加权重投影、速度
Actionable World Representation 通过 WorldString 展示,是一种用于构建物理对象神经数字孪生的方法。它从关键点条件 3D 建模中学习 token 分配和误差图,使对象几何能够真正用于机器人和仿真场景中的操作。
该项目面向关节式、蒙皮式、柔性、可变形以及机器人对象,页面展示了机器人手、SMP
Pantheon360是一种3D感知的360度视频扩散模型,专为数字孪生生成而设计,具有全景覆盖、精确的摄像机控制和时空一致性。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 Pantheon360 并不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的人工智能
LiTo 是一种表面光场标记化方法,专为具有依赖于视图的外观的高质量图像到 3D 生成和重建而设计。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 LiTo 不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
CubePart 是一种开放词汇的零件可控 3D 生成器,设计用于根据文本提示和零件架构创建多零件 3D 网格对象。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 CubePart 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的 AI 生成或 AI 分析
PhysX-Omni 是一个统一的模拟就绪物理 3D 生成框架,旨在生成具有物理属性的刚性、可变形和铰接的 3D 资产。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 PhysX-Omni 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的 AI 生成或 A
GenRecon 是一个多视图 3D 场景重建框架,旨在从休闲智能手机视频或多视图 RGB 图像生成完整的可编辑 PBR 就绪室内场景网格。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 GenRecon 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人
PanoWorld 是一种生成空间世界模型,旨在根据平面图和风格参考对 VR 风格的游览进行一致的全屋全景合成。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 PanoWorld 不是提供通用演示,而是针对具体的能力差距,并为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的
TriSplat 是一种前馈 3D 场景重建方法,旨在从稀疏视图生成可用于仿真的网格状场景重建。它的重点是通过将特定于任务的模型设计与研究人员、开发人员或生产团队可以使用的输出相结合,使该工作流程更加实用。 TriSplat 不是提供通用演示,而是针对具体的能力差距,为用户提供一种更可控的方式来处理复杂的人工智能生成或人工智能分析的内容。
PhysForge 是一个框架,用于为交互式虚拟世界和具体 AI 环境生成基于物理的 3D 资产。它解决了许多 3D 生成系统的局限性:视觉上合理的资产通常缺乏交互所需的物理属性,例如材料行为、功能部件、运动学约束和模拟就绪结构。 PhysForge 专注于可以操作的资产,而不仅仅是查看。
该系统采用由 PhysDB 支持的两阶段
TrackCraft3R 是一种开源密集 3D 跟踪系统,可重新利用预训练的视频扩散变换器进行轨迹预测。给定单目视频以及预测的深度和相机信息,它可以在单次前向传播中预测密集的 3D 轨迹。该项目针对的是从事普通视频输入的运动、几何和跟踪研究的计算机视觉研究人员。
该系统以 Wan2.1-T2V-1.3B 为基础,作为预训练视频扩散
MoCam 是一种视频重新摄像方法,用于在具有挑战性的相机轨迹和不完整几何形状下进行新颖的视图合成。它允许用户生成新的摄像机运动,例如大弧线、复杂路径、移动变焦、放大或缩小以及视频的子弹时间效果。该方法被设计为即使在几何先验扭曲、稀疏或不完美的情况下也能工作,这在实际捕获的场景中很常见。
该系统使用结构化去噪动力学来引导扩散过程从
Articraft 是一个代理系统,用于生成铰接式 3D 资产,这些资产是为模拟和交互而构建的。它针对具有移动部件的对象,例如烤箱、抽屉、自行车、椅子、灯具和机械组件,而静态网格体在这些情况下是不够的。该系统旨在生成包括功能关节的资产,以便可以在模拟或交互式环境中对其进行操作。
核心工作流程使用编码代理,根据 LLM 友好的 SD