与以往严重依赖合成 3D 扫描或计算密集型优化的方法不同,LHM 在包含图像重建损失的大规模视频数据集上进行训练,从而增强了其对各种真实场景的泛化能力。该模型的前馈特性使其能够快速推理,适用于虚拟现实、游戏、电子商务和娱乐等需要快速生成精细且可动画化的人体形象的应用。该模型还支持输出 OBJ 等格式的 3D 网格文件,以便进一步编辑并集成到下游工作流程中。其集成的 Gradio 界面支持局部可视化和交互式姿势操控,从而提升用户体验和灵活性。
大量实验表明,LHM 在重建精度、动画一致性以及对未知姿势和外观的泛化能力方面均优于现有的最先进方法。其架构有效地结合了 3D 位置编码和 2D 图像特征,从而实现了跨几何和视觉领域的联合推理。尽管当前的数据集在姿势多样性和视点覆盖方面存在一些局限性,但我们正在持续努力改进训练策略和数据集管理,以进一步增强其鲁棒性。总体而言,LHM 代表了单图像 3D 人体重建领域的重大进步,为生成逼真且可动画的数字人提供了强大、高效且易于使用的工具。
主要功能包括:
- 多模态 Transformer 架构,利用注意力机制对身体位置和图像特征进行编码
- 3D 高斯分布表征,用于高保真头像重建
- 头部特征金字塔编码,用于增强人脸识别和精细细节保留
- 无需后处理,即可从单张图像实时生成可动画的 3D 人体模型
- 支持输出可编辑的 3D 网格文件(例如 OBJ 格式)
- 在大规模视频数据集上进行训练,具有很强的泛化能力,可应用于实际场景
- 集成界面,用于可视化和姿势调整