回顾基于视觉的运动分析发展历程，整合先进计算机视觉方法开发无标记系统-技术圈

点击下方卡片，关注“新机器视觉”公众号

视觉/图像重磅干货，第一时间送达

A Review of the Evolution of Vision-Based Motion Analysis and the Integration of Advanced Computer Vision Methods Towards Developing a Markerless System

Steffi L. Colyer, Murray Evans, Darren P. Cosker and Aki I. T. Salo

刊登于《Sports Medicine - Open》——2018年

摘要

背景：近几十年来，运动生物力学和康复环境中的人体运动研究取得了长足的进步。然而，开发一种运动分析系统，以及时、不显眼和外部有效的方式收集准确的运动学数据，仍然是一项公开的挑战。

正文：这篇叙述性综述探讨了从图像中提取运动学信息的方法的演变，观察了从费力的人工方法到基于光电标记的系统的技术进步。目前在运动生物力学和康复领域应用最广泛的运动分析系统无法在不附加标记、不受控条件和/或不需要大量处理时间的情况下自动收集运动学数据。这些限制阻碍了运动捕捉技术在正常训练或康复环境中的常规应用，因此人们明显希望开发出自动无标记系统。这种技术正在兴起，通常由娱乐业的需求驱动，并利用计算机视觉和机器学习的许多最新趋势。然而，这些系统的准确性和实用性还有待充分检验，这意味着此类无标记系统目前尚未在生物力学领域得到广泛应用。

结论：本综述旨在介绍计算机视觉领域无标记运动捕捉研究的主要最新成果，这些成果很可能在未来对生物力学产生影响，同时也考虑了在准确性和稳健性方面有待解决的挑战。

关键点

1.生物力学家渴望拥有运动分析工具，以便在应用（如日常训练）情况下自动、不引人注目地精确测量运动。

2.主要为娱乐目的而开发的无标记创新技术提供了一种潜在的有前途的解决方案，其中一些系统能够测量步行步态中的矢状面角度，精确度在 2°-3° 以内。然而，不同场景对精确度的要求各不相同，而且无标记系统在不同环境下的不同运动中的有效性还有待充分确定。

3.计算机视觉专家和生物力学专家需要进一步合作，进一步开发此类技术，以满足运动和康复应用对运动分析的独特实用性和准确性要求。

回顾

背景

基于视觉的运动分析包括从连续图像中提取信息以描述运动。这种技术可以追溯到十九世纪末，埃德温-穆布里奇（Eadweard Muybridge）率先开发了捕捉马匹步态图像序列的技术[1]。此后，随着技术的重大进步，以及对更快、更复杂的运动捕捉技术的需求不断增加，运动分析技术也得到了长足的发展，应用范围广泛，从临床步态评估[2]到视频游戏动画[3]。在运动生物力学和康复应用领域，人体运动学定量分析是一种强大的工具，已被用于了解决定运动表现的技术[4]、识别受伤风险因素[5]以及促进伤后恢复[6]或创伤恢复[7]。

生物力学工具已经有了长足的发展，从人工标注图像到基于标记的光学跟踪器、基于惯性传感器的系统以及使用复杂人体模型、计算机视觉和机器学习算法的无标记系统。本综述旨在介绍运动分析方法在体育和生物力学领域的发展和使用历史，同时强调现有系统的局限性。此外，还将介绍计算机视觉和机器学习方面的最新技术，这些技术已开始在生物力学领域崭露头角。本综述探讨了这些新技术如何通过扩大运动分析的应用范围，将日常训练或比赛环境纳入其中，从而彻底改变运动生物力学和康复领域。

运动生物力学和康复中基于视觉的运动分析的一般原则和要求

光学运动分析需要估计物体在整个图像序列中的位置和方向（姿势）。通过识别连续图像中的共同物体特征，可以 "跟踪 "随时间变化的位移数据。然而，由于人体是一个极其复杂、高度铰接、自我闭合且只有部分刚性的实体，因此准确量化全身姿态是一个难以解决的问题[8-10]。为了使这一过程更加容易，通常将人体结构简化为一系列由无摩擦旋转关节连接的刚体。

刚性片段的三维（3D）姿态可由六个自由度（DOF）完全指定：三个与平移有关，三个定义方向。因此，即使是相对简单的 14 节人体模型，也需要恢复大量的 DOF（根据采用的解剖约束条件，可能多达 84 个）才能完全描述三维人体构型。根据这样的模型，可以计算关节角度，并结合身体各部分的惯性参数，推导出整个身体的质心位置，正如之前在短跑[11, 12]、体操[13]和橄榄球定点踢球[14]方面的研究一样。此外，运动学和动力学数据可以结合起来，通过反动力学分析计算关节力矩和力量[15]。此类分析在多个领域都有价值，例如，了解疲劳骑车时下肢关节的力量产生[16]，以及前十字韧带重建手术后关节扭矩曲线的特征[17]。然而，在获得可靠的关节力矩（和力量）之前，获得准确的身体姿态是必不可少的一步，因为运动学数据的不准确会导致更大的误差。

在生物力学的某些情况下，使用相对简单的身体模型进行二维（2D）分析就足够了。例如，在评估步行[19]和短跑[4]等被认为主要发生在矢状面上的运动时，或者在实验控制有限的情况下，例如在奥林匹克比赛中分析跳台滑雪运动员的身体位置时[20]。相反，当分析的运动发生在多个平面时，则需要多摄像头系统和更复杂的三维模型；例如，在研究与不同排球扣球技术相关的肩部损伤风险时[21]。全身三维分析所需的大量实验装置通常需要可控的实验室环境，而确保生态有效性（动作准确反映现实）则是一项挑战。

二维和三维分析的主要区别在于校准和坐标重建过程以及关节角度定义的复杂性。平面（2D）分析只需一台摄像机即可完成，而将 2D 信息三角化为 3D 真实空间坐标则至少需要两个不同的视角[22, 23]。二维和三维方法在定义段（或任何刚体）姿态时需要恢复的 DOF 数量（以及因此需要的标记数量）有所不同。在二维分析中，只能恢复三个DOF，而这至少需要两个线段上的已知点。相反，对于刚体的三维重建，通过识别至少三个非共线点，可以指定六个 DOF。

运动分析系统种类繁多，可在各种环境下捕捉运动，大致可分为直接技术（贴在身体上的设备，如加速度计）和间接技术（基于视觉的技术，如视频或光电技术）。直接方法可以在各种环境中捕捉运动学信息。例如，惯性传感器已被用作深入了解各种运动（行走步态[24]、铁饼[25]、盛装舞步[26]和游泳[27]）执行情况的工具。传感器漂移会影响惯性传感器数据的准确性，可在处理过程中减少漂移；但这一问题尚未完全解决，而且捕捉时间仍然有限[28]。此外，人们已经认识到，生物力学应用的运动分析系统应满足以下标准：能够及时收集准确的运动学信息，最好是在不妨碍表演者或影响其自然运动的情况下[29]。因此，在许多情况下，间接技术比直接方法更适合，因为数据是在远离参与者的地方采集的，对他们的运动干扰最小。间接方法也是以前在体育比赛中进行生物力学分析的唯一可行方法[20, 30-33]。在过去的几十年中，生物力学专家可使用的间接、基于视觉的方法已朝着更精确、更自动化的系统方向取得了巨大进步。然而，目前尚未开发出完全符合上述运动分析系统重要属性的工具。

基于视觉的运动分析在运动生物力学和康复领域的历史进程

手动数字化

手动数字化是数十年来最普遍的运动测量技术，在数字技术出现之前，传统上使用的是胶片摄像机[32, 34-36]。由于其图像质量高且帧频高速（上述研究中为 100 Hz），因此非常适合运动分析领域。然而，由于处理时间较长，这种方法的实用性受到了限制。随着摄像机（最初是磁带摄像机，后来才过渡到数字摄像机）的出现，胶片摄像机在生物力学领域基本上已成为多余。数字摄像机现在相对便宜，分辨率越来越高，帧频越来越快（消费类摄像机一般能以超过 120 Hz 的速度拍摄高清视频，而工业用摄像机的帧频要快得多），处理时间也更短。

无论使用哪种技术捕捉运动，手动数字化都需要从每个摄像机角度手动定位每个连续图像中的几个兴趣点（通常代表基本关节中心）。如果进行了校准试验（在每个摄像机视图中对几个已知相对位置的控制点进行数字化），就可以将图像主体点的位置重建为现实空间坐标，最常见的方法是直接进行线性变换[23]。有几种软件包可辅助这一过程，并可对刚性结构上的点进行精确定位 [37，38]。此外，这些方法的可重复性也得到了可靠性分析的支持，例如在短跑跨栏[39]和板球[33]研究中。

手动数字化的主要优势之一是不一定需要连接标记物，这也是手动数字化作为一种收集运动学数据的方法得以长期存在的原因。因此，手动数字化仍是一种有价值的工具，特别是在运动生物力学方面，因为它可以在不妨碍运动员的情况下分析正常训练[12, 40, 41]和比赛[20, 30-33]环境中的运动。此外，这种方法还为在应用治疗环境中研究步态提供了一种实用、经济的方法[42]。

遗憾的是，与实验室光学运动分析相比，采用现场光学运动分析时，需要在准确性和生态有效性之间做出权衡[43]。具体来说，手动数字化方法可以在应用环境中不显眼地实施，相对容易。然而，由此产生的基于三维矢量的关节角度很难与解剖学上相关的旋转轴联系起来。此外，如果将角度投射到二维平面上（试图将角度分离成组成部分），一个平面上的运动可能会被错误地测量为另一个平面上的运动，这一点在板球保龄球运动中评估肘关节伸展合理性时已经讨论过[44]。通过将内侧和外侧髁等外部标记数字化，对这种早期建模方法进行了改进，提供了更精确的三维关节角度表示。不过，这种方法仍存在一些缺点，包括手动数字化是一项耗时费力的工作，而且容易出现主观误差。这些局限性促使人们开发自动解决方案，而更先进的技术的出现则为自动解决方案的开发提供了动力。

基于标记的自动系统

目前已有大量用于研究人体运动的商用自动光电系统。这些系统大多利用多台摄像机发射不可见的红外线，并利用被动标记将红外线反射回摄像机，从而推断出它们的三维位置。虽然这些系统的规格有很大不同[45]，但其基本原理是相同的，即在连续图像中定位几个兴趣点，将其转换为真实空间坐标，并用于推断底层骨骼的三维姿态。不过，这些方法的主要区别在于光电系统能够自动定位大量标记点，从而大大提高了这一过程的时间效率。要指定六个 DOF，必须在每个关节段上粘贴至少三个非共线标记。如果仅使用两个关节标记来定义一个区段，则会面临与上述手动数字化相同的挑战。增加每个分段上的标记数量可以增加系统的冗余度。然而，大量的标记集会干扰自然运动模式，而且如果标记彼此靠近或被遮挡，跟踪标记轨迹就会变得十分困难[45]。

对几种广泛使用的基于标记的商业系统的精确度进行了评估，使用的是在已知位置连接标记的刚性旋转结构[45]。结果发现，完全可见的移动标记的均方根误差通常小于 2.0 毫米，静止标记的均方根误差通常小于 1.0 毫米（误差按 3 米长的标准体积缩放），这表明标记附着在刚性体上时具有极高的精度。然而，将标记准确放置在解剖标志物上很难实现，而且放置在皮肤上的标记与三维关节位置并不直接对应。目前有多种协议可用于定位关节中心和/或根据放置在解剖标志物上的标记确定节段姿态；然而，在相同步态周期内进行比较时，这些不同的协议会产生不同的矢状面外结果[46]。事实上，在标记放置方面也不可避免地存在日常差异和测试者之间的差异，这降低了基于标记的测量结果的可靠性，尤其是横向平面运动的测量结果[47, 48]。

众所周知，刚体假设（基于标记的运动分析的基础）可能会被软组织运动所破坏，尤其是在动态活动中[49]。将标记物得出的运动学结果与透视[50]、伦琴摄影测量技术[51, 52]和皮质内骨针[53-55]等 "金标准 "方法得出的运动学结果进行比较的研究均证实了这一现象。由于软组织移动会带来与实际骨移动频率相似的系统误差和随机误差，因此很难通过数据平滑来减弱这种误差[56]。在过去的二十年中，标记集的精心设计[57]和解剖校准程序的使用[58]在一定程度上缓解了这种测量伪影。例如，可以进行初始静态校准试验，根据标记定义关节中心和节段坐标系。然后可以移除某些在动态运动中容易移动的标记，而不影响节段姿势的推导[59-61]。此外，标记集群（通常是刚性固定在平板上的三到四个非共线标记）的放置不仅提供了定义节段六个 DOF 的实用方法，还可以通过策略性定位来减少软组织伪影 [49]。更复杂的姿势估计算法[62]和关节角度定义[43]的开发进一步提高了基于标记的分析的准确性。

光电系统对捕捉环境也相对敏感。特别是阳光，其中包括很强的红外线成分，会给测量带来不希望有的噪音。因此，过去基于标记的分析仅限于室内条件（光照条件可以得到严格控制）。然而，创新的主动过滤功能可以减少这些误差，甚至可以在室外雪地运动中捕捉数据[63]。

由此可见，光电系统近来在生物力学领域取得了重大进展。然而，尽管对方法的仔细考虑可以提高所获数据的准确性，但仍存在一些局限性，包括参与者准备时间长、标记放置或移动可能出错，以及在某些情况下（如体育比赛）无法安装标记。也许最根本的问题之一是，附加标记会给参与者带来生理和/或心理上的限制，从而影响动作的执行。这些缺点会限制基于标记的系统在运动生物力学和康复的某些领域的应用，并促使人们探索潜在的无标记解决方案。

无标记运动分析系统

运动分析领域未来的一个诱人进展是采用全自动、无创、无标记的方法，这将最终为运动生物力学和康复领域的研究与实践带来重大突破。例如，在正常训练环境中可以更方便地进行运动分析，而无需与基于标记的系统相关的漫长的受试者准备时间或手动方法所需的费力处理。此外，它还能为生物力学家面临的一个共同难题提供潜在的解决方案，该难题源于准确性（基于实验室的分析）和外部有效性（基于现场的分析）之间的权衡。

无标记方法尚未在生物力学领域得到广泛应用，仅有少数几家公司提供商用系统（表 1 提供了其中部分系统的详细信息）。不过，与市场上其他更成熟的运动分析系统相比，这些系统究竟能达到怎样的精度，目前仍不清楚。当然，随着现代计算机视觉算法提高了无标记系统的稳健性、灵活性和精确度，这项技术正在迅速发展。以前发表的一些评论[10, 64-67]详细介绍了这些发展，针对的是安全、取证和娱乐等特定应用领域。本节旨在向生物力学界介绍当前计算机视觉领域最先进的无标记技术，并讨论该技术在精确度方面的现状。

表1 商用全身无标记系统精选

无标记运动捕捉的最新计算机视觉方法

在基于标记的动作捕捉中，摄像机和照明都经过特别配置，使标记的观察和跟踪变得简单。在使用多个标记的情况下，需要识别单个标记，然后直接根据标记的位置进行测量，或推断出最适合标记位置的骨架模型配置。无标记系统与此有一些相似之处，不同之处主要在于从图像中收集信息的过程要困难得多。

无标记运动捕捉系统的四个主要组成部分是：(1) 使用的摄像机系统；(2) 人体的表示方法（人体模型）；(3) 使用的图像特征；(4) 用于确定人体模型参数（形状、姿势、位置）的算法。用于根据图像数据推断人体姿态的算法通常分为 "生成式"（模型参数可用于"生成 "一个假设，该假设根据图像数据进行评估，然后迭代改进以确定最佳拟合）或"判别式"（图像数据用于直接推断模型参数）。一般来说，无标记运动捕捉系统的形式如图1 所示。这包括一个离线阶段，在这一阶段，先验数据为模型设计或基于机器学习的判别算法的训练提供信息，然后采集、处理图像数据，并输入到估计身体姿势和形状的算法中。

图1 无论是使用生成算法（绿色）还是判别算法（橙色），无标记运动捕捉的一般结构

用于无标记运动捕捉的摄像机系统

用于无标记运动捕捉的摄像机系统主要有两大系列，它们的区别在于是否生成"深度图"。深度图是一种图像，其中每个像素描述的不是颜色或亮度，而是空间中某个点与摄像机的距离（图 2）。深度感应照相机系统包括从窄基线双目立体照相机系统（如 PointGrey Bumblebee 或 Stereolabs Zed 照相机）到 "主动式 "照相机（通过光线投射到观察场景来感知深度），如微软的 Kinect。深度信息有助于缓解影响传统摄像头系统的问题，如阴影、不完美的照明条件、反射和杂乱的背景。有源深度感应照相机系统（通常称为 RGB-D 照相机，可同时捕捉色彩和深度）已被证明可有效用于交互系统和游戏中的实时全身姿态估计[68, 69]。这些设备通常使用两种技术之一：结构光或飞行时间（ToF）。结构光设备通过投射到场景中的已知图案的变形来感知深度，而飞行时间设备则测量光脉冲返回相机的时间。这两种技术具有不同的噪声特性，并在深度精度和空间分辨率之间进行权衡[70]。最著名的有源摄像头是微软最初的结构光 "Kinect"，以及基于 ToF 技术的替代产品"Kinect For Xbox One"（通常称为 Kinect 2）。已对这两种版本的摄像机的跟踪系统性能进行了分析[71]，但其精度显然远低于精密生物力学所需的精度（不过可以推测，非互动系统专用的跟踪系统使用这些设备可能会达到更高的精度）。有源相机已通过定制软件应用于运动生物力学[72, 73]，但目前的硬件限制（仅在短距离内有效、最大帧频为 30 Hz、在强光下无法工作以及多个传感器之间的干扰）可能会在可预见的未来限制其在运动生物力学中的应用。

图2 深度图示例。较亮的像素距离摄像头较远。黑色像素要么距离太远，要么位于不能反射近红外线的物体上

身体模型

无标记运动捕捉所使用的身体模型一般与传统的基于标记的方法所使用的模型相似。骨架被定义为一组关节和这些关节之间的骨骼（图 3）。骨架的参数是骨骼的长度和每个关节的旋转角度，姿势由关节角度描述。对于判别方法来说，这种骨架模型就足够了，但生成方法还需要人的体积表示。

图3 可摆动骨骼模型示例。预先指定长度的"骨骼 "连接在关节上，围绕这些关节旋转骨骼就可以摆出骨架的姿势。骨架模型通常与基于标记的运动捕捉数据和基于计算机视觉的无标记系统相匹配。

在早期的研究中，模型的体积是用简单的几何形状来表示的[74]，比如圆柱体。在计算机视觉领域，这种模型仍然是最先进的，其形式是将一组"空间三维高斯"[75]连接到运动骨架的骨骼上（图4）。这种表示方法的优势在于能够在生成框架中使用被动摄像机和一组非常简单的图像特征进行快速、几乎实时的拟合。

图4 来自Stoll [75] 的高斯人体模型总和。骨架（左）构成模型的基础，提供肢体长度和身体姿势。通过使用沿骨架排列的三维空间高斯（用球体表示），人体获得了体积和外观信息。由此获得的信息可将模型与图像数据进行拟合

图5 带皮肤的多人线性模型（SMPL）[79]身体模型。该模型没有明确的骨架。相反，人的表面由三角形网格来表示。通过一组参数（通过回归学习），可以将模型的形状从中性平均值（左侧）改变为较胖（中间）、较瘦、较高或其他身体形状。一旦成形，就可以从中性摆放的网格中推断出关节中心，然后可以围绕这些关节旋转网格，以生成摆放的人体（右图）。

不过总的来说，目前的趋势是使用图形和计算机游戏中常见的三维三角形网格，这些网格可以由艺术家创建，也可以作为高清三维扫描的产物[76]，或者最近通过对通用统计三维形状模型进行专门化[77-79]（图 5）。统计体形模型可以用相对较少的参数代表多种人体形状，并改善关节旋转时身体表面的变形情况。然而，由于这些模型侧重于模型的外表面外观，其底层骨架对实际人体骨架的代表性值得怀疑，因此在使用这些模型进行生物力学测量时必须小心谨慎。

运动捕捉模型所使用的人体参数总是经过简化的，虽然能够呈现逼真的外观，但也可能表现出不切实际的形状和姿势。如果不对算法进行严格限制，这些解决方案可能会成为现有数据的最优解。为确保只生成物理上逼真的解决方案，算法必须得到人体模型约束的支持，例如明确的关节限制[80]或通过机器学习推导出的人体姿势和运动的概率空间[81]。无论哪种情况，都需要在强制执行约束和信任观测数据之间取得平衡，以获得既合理又精确的解决方案。

无标记运动捕捉的图像特征

从根本上说，数字图像是一个由数字组成的二维网格，每个数字代表一个小区域或像素的亮度和颜色。确定像素与物体之间的关系是计算机视觉中的一项基本任务，人们已经提出了许多从图像中提取有意义的 "特征 "的方法。基于标记的系统正是为了避免这项任务的巨大困难而开发的。

对于运动捕捉来说，主要目的是确定被捕捉者在图像中的位置和范围。最早也是最稳健的方法之一就是色度抠像。这种方法是将场景的背景涂成一种特定的颜色，这样就可以轻松地分割出人物的轮廓（人物身着合适的对比色衣服）（图 6）。对于无法进行色键处理的环境，有大量的背景减法算法 [82]。但是，这些算法都会受到阴影、光照变化、反射和背景的非倾斜运动（如人群或其他运动员）的影响。

图6 右侧剪影是通过对左侧图像进行色键处理得到的。当只看到剪影时，无法推断人体模型是朝向镜头还是远离镜头

图7 生成可视体，这是从多个摄像头观察到的物体的一种三维重建。上行：从多个方向捕捉物体的二维图像。中行：处理这些图像，为每个摄像头生成剪影图像。左下图：从每个摄像头向后投射轮廓，形成锥形空间区域。右下图：这些锥形区域的交汇处形成视觉体

图像剪影本身也是模糊的，无法提供被观测对象是朝向摄像机还是远离摄像机的信息（图 6）。只有使用额外的摄像头或更复杂的图像特征才能减少这种模糊性。在有大量摄像头的情况下，可以将剪影组合成三维表示，即所谓的视觉体[83]，它是被观测者所占空间的近似值（图 7）。还可以进行更复杂的三维重建[84]；但是，任何增加的精确度都必须与增加的计算复杂度进行权衡。然而，改进重建并不能完全解决所有的拟合困难，通常还需要额外的信息来确定轮廓的哪些区域与身体的哪些区域相对应，才能完全解决所有可能的混淆问题[85]。尽管如此，剪影已成为许多无标记运动捕捉作品的一个重要方面，包括 Corazza 等人的作品[86]（该作品报告了一些最精确的无标记自动人体运动捕捉结果）和 Liu 等人的作品[87]（该作品实现了对多人的运动分析）。不过，现在的趋势是不再使用图像剪影，以提高鲁棒性、减少模糊性、减少摄像头数量并简化捕捉程序。在这方面，Stoll 等人[75] 的研究成果对仅使用简单的颜色模型就能将人体模型与图像相匹配具有重要意义，而深度学习[88] 的出现及其提供的稳健、快速的人体部位检测器则极大地改进了实验室条件之外的工作[89, 90]，包括通过一个未经校准的移动摄像机识别多人的身体姿势[91]。

生成算法

在生成式运动捕捉方法中，人的姿势和形状是通过将身体模型与从图像中提取的信息进行拟合来确定的。对于一组给定的模型参数（身体形状、骨骼长度、关节角度），会生成一个模型表示。然后，可将该表示法与从图像中提取的特征进行比较，并计算出单一的 "误差值"，该值表示假设与观察数据的差异程度。一种方法是将预测参数生成的三维三角形网格投射到二维图像中，最大限度地增加网格与人物轮廓的重叠[92]。另一种方法是将三维人体模型与三维重建（如视觉躯壳）进行比较，通过一种称为迭代最邻近点的标准算法，最小化模型的三维顶点与视觉躯壳的三维点之间的距离[86, 93]。

生成式方法的一个关键因素是适当定义将特定假设与图像中可用信息进行比较的函数。如果不仔细考虑这一点，那么寻找最佳模型参数集的工作就很容易失败，从而导致估算结果不准确，或出现关节弯曲角度不真实、肢体穿透身体内部等无稽配置。构建一个对图像噪声和不切实际的模型配置具有鲁棒性的成本函数是很困难的，这意味着生成模型通常需要一个可靠的模型参数初始猜测。在极端情况下，这意味着在开始追踪时，要强迫被捕捉者摆出特定的姿势。如果拟合过程因遮挡、图像噪声或其他故障而变得混乱，那么在没有人工干预的情况下，追踪将无法自行纠正。研究人员尝试使用改进的搜索算法 [92]、从鲁棒性身体部位检测器[90] 和最新的姿势识别算法[94-97] 中获得的额外信息，或将生成方法与判别方法结合起来 [98]，来解决这种情况。

判别方法

判别算法避免了反复调整人体模型参数以适应图像的过程，因此也常被称为无模型算法。与生成法相比，它们的处理时间通常更快，鲁棒性更好，对初始猜测的依赖性也更小。不过，它们的精确度可能会降低，而且需要一个非常庞大的示例数据数据库（甚至远远超过生成式算法构建统计体形模型所需的数据），以便从中学习如何推断结果。判别方法有两大类。一种方法是直接发现从图像特征到姿势描述的映射，例如使用基于机器学习的回归[99, 100]。通过这种方法，可以 "教会 "计算机如何仅使用图像数据来确定简单骨架模型的姿势。该系列中最新的方法使用深度学习来训练一个系统，该系统可以识别多人的身体部位、关节的可能归属，然后快速解析以确定骨骼[91]。或者，也可以创建一个姿势示例数据库，然后进行搜索，以发现与当前图像最相似的已知姿势，正如之前的研究中所使用的那样[101-103]。

使用判别算法的主要困难在于创建范例数据。如果可用数据不足，那么姿势、体态甚至相机位置如果没有得到适当的体现，就会导致错误的结果，因为系统无法从它 "知道 "的东西归纳到它 "看到 "的东西。这也将影响结果的精度，因为算法被限制为给出接近它“知道”的解，所以小的变化可能不会完全反映在结果中。因此，鉴别方法被用作生成方法的初始猜测[98]。

无标记方法综述

当前最先进的技术表明，计算机视觉社区旨在开发在实验室条件之外适用且可靠的无标记运动捕捉解决方案。虽然使用复杂的受试者特定身体模型仔细校准的基于轮廓的算法显示了迄今为止最准确的结果，但它们仅限于使用大量摄像机的实验室条件[86]。通过利用现代技术，如改进的解算器[92]、高级图像功能和现代机器学习[100]，最近的工作正在提供减少所需摄像机数量[104]、允许移动摄像机[105]、增加可跟踪的人数并在各种环境中提供稳健的检测和拟合的解决方案[91]。在没有照相机校准知识的情况下这样做的能力进一步提高了未来系统的潜在易用性；然而，在生物力学等需要精确测量的地方，校准可能仍然是必要的。

当前无标记运动捕捉系统的精度

计算机视觉和生物力学领域对运动分析技术的精度要求存在明显差异，在尝试将计算机视觉方法更广泛地应用于其他学科时必须考虑到这一点。例如，计算机视觉领域（主要是娱乐应用）的精确度通常是定性评估，主要根据外观进行评估。相反，在生物力学环境中，任何运动分析系统都必须能够稳健地量化运动中的细微差别，这一点至关重要，因为从肌肉骨骼性能或病理学角度来看，这些细微差别可能是有意义的。然而，对于运动分析系统的最低精度要求并没有达成普遍共识，而且不可避免的测量误差的大小会因环境（实验室与现场）、运动和参与者的特征、实验装置以及人体建模方式的不同而有所差异。

如前所述，基于标记的方法是目前生物力学实验室使用最广泛的系统。然而，基于标记的系统测量误差的一个主要来源是皮肤运动伪影[56]，这违反了这些方法所依据的刚体假设。有报告显示，与更精确但更具侵入性的方法（如皮质内骨针）相比，由于软组织运动造成的误差在某些解剖标志物上可超过 10 毫米，在某些关节角度上可超过10°[106]。不过，通过使用更复杂的姿势估计算法，如带有关节约束的全局优化（逆运动学），关节角度测量的误差可减少到 2°-4°[62]。由于 "黄金标准 "方法在许多情况下并不合适，而基于标记的系统是该领域最常用的运动分析技术，因此无标记系统和光电系统之间的一致性将被视为无标记运动分析技术有效性的证据。

目前已有一些研究试图通过将运动学输出变量与使用基于标记的光电系统[10, 86, 93, 107-109]或人工数字化[110]所获得的变量进行比较，来评估无标记系统的准确性（总结见表 2）。这些验证大多研究相对较慢的运动（通常是步行步态），而要验证这些方法在体育应用中的实用性，则需要对更快的运动进行全面评估。从这些结果中可以明显看出，无标记技术目前难以准确可靠地提取横向平面旋转[107, 110]。

表2 无标记与传统运动分析系统比较研究综述

表3 根据HumanEva 数据集选择已公布的验证结果

在计算机视觉领域，通常的做法是通过建立基准数据集来推动技术发展，许多作者可以根据基准数据集对其算法性能进行排名。被广泛使用的 HumanEva 数据集 [111] 和最新的 Human 3.6M 数据集 [112] 就是这样的两个基准。这些数据集提供了人们进行动作（行走、慢跑、拳击等）的视频，同时还使用了基于标记的跟踪系统进行跟踪。表 3 显示了已公布的HumanEva 数据集对比结果样本。这些结果表明，无标记技术的精度仍然太低，不适用于生物力学分析。然而，HumanEva 数据集中的视频数据和运动捕捉数据本身质量有限。例如，视频的分辨率较低，摄像机的位置也不够理想，而标记的数量有限，位置也不够理想（通常是在相对宽松的衣服上），没有标记集群来帮助跟踪（图 8）。相比之下，Corazza等人[86] 在 HumanEva 上得出的平均关节中心位置误差为 79 ± 12 毫米，而在作者自己的更高分辨率数据以及更好的摄像头和标记位置上，得出的误差要小得多，仅为 15 ± 10 毫米。

图8 HumanEva 数据集中的示例图像，用于验证计算机视觉中的无标记系统。白点表示跟踪到的反射标记的位置，青色线条表示与标记数据拟合的定义骨架模型。虽然作为无标记跟踪系统的早期基准非常有用，但该数据集在评估任何无标记跟踪结果的质量方面都有明显的局限性，尤其是在生物力学方面。请注意，标记是附着在衣服上的，没有使用标记集群，而且根据拟合骨骼推断出的关节中心与图像中的人物并不完全一致（例如右肘和髋关节）。更多信息请参见正文

Corazza 等人[86] 观察到的 HumanEva 基准验证结果与更严格的基于标记的捕捉数据之间的差异表明，将基于标记的运动捕捉作为标准方法存在困难。事实上，虽然这些基准有助于显示不同算法的一般性能，但用于验证无标记技术的基于标记或手动数字化方法都无法提供精确的 "真实 "身体姿态，原因是不可避免地会引入实验假象。此外，确保应用于两个系统的人体模型之间的紧密匹配也是一个挑战，这可能需要 "离线 "阶段，也许会涉及成像，如之前的工作 [76]。如果算法检测到标记并将其用于自己的利益，或者如果标记对无标记算法的性能产生不利影响（例如改变轮廓形状），那么在验证图像中添加标记也可能对测试中的无标记系统的性能产生不适当的偏差[107]。因此，人们还考虑了验证无标记系统性能的其他方法，例如利用力板数据分析质量中心的移动[113]，以及创建虚拟环境（合成图像），让预定义的模型在其中以已知的运动学方式移动[93]。虽然合成图像对于开发算法非常有价值（合成图像用于为微软的 Kinect 姿态跟踪器生成训练图像 [68]），但理想化的图像数据不太可能捕捉到真实图像的噪声和误差源。

在运动生物力学和康复领域分析运动的无标记方法的前景

很明显，近来计算机视觉研究中出现了大量无标记技术，这些技术有可能应用于不同学科和环境。无标记运动捕捉系统的优先级和要求取决于研究领域和独特的捕捉环境，因此各学科之间并不一致。在运动生物力学和康复应用中，运动分析系统必须高度精确，以检测运动中的细微变化，同时还必须具有适应性、非侵入性和无累赘性。考虑到这些系统要求，当前的技术发展表明，实用无标记运动捕捉的未来将取决于 Elhayek 等人[90]提出的技术，这些技术融合了辨别方法（以获得良好的初始化和鲁棒性）和鲁棒的无轮廓运动学模型拟合方法，以提高精确度。

快速、近似的姿势估计系统曾与缓慢、更精确的技术相结合，为田径教练提供基本参数，并为实时训练提供信息[76]。这类系统在应用领域可能很有用，可以在正常训练或康复情况下反馈一些主要的 "顶级 "生物力学决定因素（例如步态中的步频和步长）。重要的是，更复杂、计算成本更高的运动学变量（如三维关节角度，需要对身体进行建模）仍然可以获取。不过，可能需要进行更耗时的离线处理。这种由两部分组成的方法有助于解决体育科学研究与实践之间明显脱节的问题[114]，因为参与者准备时间短，系统反馈及时，这可能会提高此类研究对应用领域工作人员的感知（和实际）价值。重要的是，更复杂的运动学信息仍可在更长的时间框架内计算并传达给应用实践者，但同样，这些数据也可用于研究，以不断提高我们对人类运动的科学理解。

需要注意的是，分辨率（空间分辨率和时间分辨率）对无标记系统精度的影响与对有标记系统的影响相同。不过，基于视频的自动系统还必须考虑到采集的数据量将大得多这一事实，因此，无标记系统可能需要牺牲精度，以使可部署的快速系统变得可行。这种系统需要高效处理大量视频数据，因此可能需要购买昂贵的（也许是专门设计的）基于视频的系统（如机器视觉）。

结论

运动和康复应用中基于视觉的运动分析方法近来有了长足的发展，使生物力学研究为这些领域贡献了大量有意义的信息。然而，最普遍的运动学数据采集技术（基于标记的技术和人工数字化）并非没有缺点。计算机视觉技术的长足发展激发了人们对无标记运动分析及其更广泛应用的兴趣。虽然这种潜力很有前途，但目前还不清楚到底能达到什么样的精度，也不清楚这种系统是否能在基于现场（更多外部验证）的环境中有效和常规地使用。未来几年，计算机视觉专家和生物力学专家需要开展合作研究，进一步开发无标记技术，使其能够满足运动和康复环境下运动分析的独特实用性和准确性要求。

声明：部分内容来源于网络，仅供读者学习、交流之目的。文章版权归原作者所有。如有不妥，请联系删除。

—THE END—