VIGA: Vision-as-Inverse-Graphics Agent

关键功能

使用 Blender 和分析-合成循环将图像重建为可编辑的 3D 场景程序。
支持从几何图元创建资产,并集成 Meshy 和 SAM-3D 等外部 3D 资产生成器。
使用交错的多模态推理和上下文记忆来迭代细化场景、物理和交互。
引入了 BlenderBench,一个包含 30 个任务的基准,在该基准上,与基线相比平均提高了 100% 以上。
在 BlenderGym 图形编辑基准上展示了强大的性能和泛化能力。

通过将多模态推理与不断发展的上下文记忆交织在一起,VIGA 可以“感知编码”场景、它们的物理特性和交互,使用基本元素或高质量生成资产从头开始构建它们。


在新的 BlenderBench 基准(包含 30 个具有挑战性的任务)和 BlenderGym 上进行评估,VIGA 显著优于强大的基线,在多样化的图形编辑和程序化内容创建任务中展现出强大的泛化能力。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!