UniSH 的网络架构由重建分支和人体分支组成。重建分支预测每帧的相机外参、置信度图和点图,而人体分支估计全局 SMPL 形状参数和每帧姿态参数。来自两个分支的特征由 AlignNet 处理,以预测全局场景尺度和每帧 SMPL 平移,从而实现一致的场景和人体对齐。
UniSH 在以人为中心的场景重建方面取得了最先进的性能,并在全局人体运动估计方面取得了具有竞争力的结果。它在一次前向传播中联合恢复了高保真度的场景几何、人体点云、相机参数和一致的、度量级的 SMPL 模型。该框架能够处理具有强大时空一致性的具有挑战性的动态场景,使其成为各种应用的强大工具。

