VIGA 是一个多模态代理，它将视觉视为逆向图形，通过 Blender 中的分析-合成循环，将图像重建为可编辑的 3D 场景程序。通过将多模态推理与不断发展的上下文记忆交织在一起，VIGA 可以“感知编码”场景、它们的物理特性和交互，使用基本元素或高质量生成资产从头开始构建它们。在新的 BlenderBench 基准（包含 30 个具有挑战性的任务）和 Bl

VIGA: Vision-as-Inverse-Graphics Agent | 寻找最新最热门的3D-场景重建AI | 浏览最全面的AI数据库

VIGA 是一个多模态代理，它将视觉视为逆向图形，通过 Blender 中的分析-合成循环，将图像重建为可编辑的 3D 场景程序。 通过将多模态推理与不断发展的上下文记忆交织在一起，VIGA 可以“感知编码”场景、它们的物理特性和交互，使用基本元素或高质量生成资产从头开始构建它们。 在新的 BlenderBench 基准（包含 30 个具有挑战性的任务）和 BlenderGym 上进行评估，VIGA 显著优于强大的基线，在多样化的图形编辑和程序化内容创建任务中展现出强大的泛化能力。

VIGA: Vision-as-Inverse-Graphics Agent

关键功能

Subscribe to the AI Search Newsletter