该模型基于 3D 感知的离散标记构建,并在名为 3D-Alpaca 的大规模连续训练数据集上进行训练。该数据集涵盖生成、理解和编辑功能,为未来的研究和训练提供了丰富的资源。3D-Alpaca 数据集是训练和评估 3D 大型语言模型的全面基础。 ShapeLLM-Omni 继承了 Qwen2.5-vl 强大的多模态功能,并支持文本转 3D、图像转 3D、3D 字幕以及基于文本指令的 3D 编辑。
该模型已被证明具有令人印象深刻的定性结果,并提供了文本转 3D 和图像转 3D 的示例。此外,我们还提供了一个演示版本,展示了该模型在图像转 3D、文本转 3D 和 3D 理解方面的功能。该演示版本允许用户试用该模型的功能并了解其潜在的应用。总而言之,ShapeLLM-Omni 是朝着扩展具有基本 3D 功能的多模态模型迈出的重要一步,有助于未来 3D 原生 AI 的研究。