3D姿态估计常见方法:1.直接估计法:视频数据集如HumanEva和Human3.6M 标注了3D关节的位置。故可以直接使用3D关键点数据进行监督学习,直接从图像中估计三维关节。许多方法没有解决相机问题,而是估计相对于根的深度,并使用基于骨骼平均长度的预定义全局尺度。缺点:具有精确的ground truth 3D注释的图像是在受控的MoCap环境中捕获的。仅根据这些图像训练的模型不能很好地适用于现实世界。在这里不考虑此种方法。2.两阶段法:(regression)先获取2D信息,然后再“提升”到3D姿态。该方法对图像提取特征,最终得到2D point(如HRNet、PifPaf等网络),后将2D关键点序列输入到后续网络(强行FC、TCN、LSTM等)中,提升到3D关键点。该方法有相关实验结果显示:用2D的ground truth关节点来生成3D的关节点错误率非常低,比目前最好的结果好了30%。而我们用从2D图像得到的2D关节点来生成3D关节点,这样的错误率只比目前最好的结果稍微好一点。因此,该种方法还是主要依赖于目前的2D姿态估计技术。 (model fitting)基于模型的人体姿态估计目前有两种不同的方法。基于优化的方法以迭代的方式将参数体模型与二维观测值进行拟合,可以得到精确的图像-模型比对,但往往对初始化比较缓慢和敏感。相比之下,基于回归的方法,即使用深度网络直接从像素估计模型参数,往往提供合理的,但像素不准确的结果,同时需要大量的监督。两种方法都依赖于人体参数化模型。基于优化的方法已经被很好地探索和理解。给定人体的参数模型,例如在SMPL,迭代拟合方法试图估计身体姿态和形状,最好地解释二维观察,最典型的如二维关节位置。由于我们明确地对模型与图像特征的一致性进行优化,我们通常会得到很好的拟合,但优化往往非常缓慢,而且对初始化的选择相当敏感。另一方面,最近的深度学习进展已经将焦点转移到纯粹基于回归的方法上,即使用深度网络直接从图像中回归模型参数。理论上,这是一个很有前途的方向,因为深度回归可以考虑所有的像素值,而不是仅仅依赖于二维位置的稀疏集。遗憾的是,这种一次预测可能会导致图像-模型对齐不理想,同时需要大量的数据对网络进行适当的训练。基于优化的方法:SMPLify。使用当时流行的基于CNN的方法DeepCut来预测(自下而上)二维人体关节位置。然后,将发布的统计身体形状模型SMPL(自顶向下)拟合到2D关节。通过最小化目标函数来惩罚投影的3D模型关节与检测到的2D关节之间的误差。基于回归的方法:最近的大多数工作,对于单个RGB图像,使用深度网络对模型参数进行回归。由于缺乏具有完整的三维形状地面真实感的图像,这些工作大多集中在替代监督信号训练深层网络。它们中的大多数都严重依赖于2D注释,包括2D关键点、分割Mask。典型代表:HMR,结构如下图:其思想是,给定一幅图像,网络必须推断出3D网格参数和摄像机,以便在投影后,3D关键点与标注的2D关键点相匹配。为了处理模糊性,这些参数被发送到鉴别器网络,鉴别器网络的任务是确定三维参数是否与真实人体相对应。虽然SMPL可以对静态软组织变形进行姿态建模,但它对由于身体运动和与地面的冲击力而发生的动态变形并不工作。因而SMPL作者为了建模这些,引入了一组新的附加混合形状,称之为动态混合形状。这些额外的位移与身体和四肢的速度和加速度有关,而与姿势无关,该模型称之为DMPL。
联合优化与回归的方法:
如SPIN(Learning to Reconstruct 3D Human Pose and Shape via Model-fitting in the Loop):SPIN通过基于回归和基于迭代的优化方法之间的紧密协作,为三维人体姿态和形状估计训练了一个深度网络。在培训期间,网络预测SMPL参数模型,不使用ground truth 2D关键点来应用弱重投影损失,而是建议使用回归估计来初始化一个迭代优化例程,使模型适合于2D关键点(SMPLify)。这个过程是在训练循环中完成的。两阶段法缺点:为了约束2D到3D估计中的固有模糊性,这些方法使用了各种先验。大多数方法对肢长或比例做出一些假设。过多地依赖于2D关节检测并且可能在估计3D姿势时丢弃图像信息。