该模型采用先进的点云编码器,将密集的空间数据压缩为特征向量,然后由大型语言模型处理这些特征向量以生成结构化的场景代码。这些代码可以转换为各种输出格式,例如面向 3D 的边界框、2D 平面图和行业标准的 IFC 文件,从而方便与建筑和工程工作流程集成。SpatialLM 基于大规模逼真的数据集进行训练,确保其预测能够反映真实的物体位置和环境布局。它还结合了先进的 SLAM 技术,可以从 RGB 视频重建 3D 点云,从而增强了其在无法直接进行 3D 扫描的实际场景中的适用性。
SpatialLM 显著提升了空间推理能力,使其在实体机器人、自主导航和复杂 3D 场景分析等领域的应用尤为重要。自主系统可以利用其详细的语义输出来更好地理解和与环境交互,从而提高安全性和运营效率。SpatialLM 的开源版本鼓励协作研发,并提供工具和预训练模型,以促进跨领域的实验和部署。 SpatialLM 能够将原始空间数据转化为切实可行的洞察,使其成为机器人、建筑和空间计算领域的一项变革性技术。
主要功能包括:
- 处理来自单目视频、RGBD 图像和 LiDAR 传感器的 3D 点云数据
- 生成结构化的 3D 场景理解,包括墙壁、门、窗和物体边界框
- 连接非结构化几何和结构化空间表示的多模态架构
- 输出与 3D 布局、2D 平面图和 IFC 行业标准兼容
- 在大规模逼真数据集上进行训练,以实现逼真的场景重建
- 增强实体机器人和自主导航的空间推理能力
- 开源,提供预训练模型和工具,可用于研究和应用程序