多目标追踪小抄：快速了解MOT的基本概念-技术圈

来源：Deephub Imba
本文共2400字，建议阅读5分钟
本文介绍了MOT的基本概念。

多目标跟踪（Multiple Object Tracking）

MOT 获取单个连续视频并以特定帧速率 (fps) 将其拆分为离散帧以输出。

检测每帧中存在哪些对象
标注对象在每一帧中的位置
关联不同帧中的对象是属于同一个对象还是属于不同对象

MOT的典型应用

多目标跟踪（MOT）

用于交通控制、数字取证的视频监控
手势识别
机器人技术
增强现实
自动驾驶

MOT 面临的挑战

准确的对象检测的问题是未能检测到对象或者为检测到的对象分配错误的类别标签或错误地定位已识别的对象：

ID Switching发生在两个相似的物体重叠或混合时，导致身份切换；因此，很难跟踪对象 ID。
背景失真：复杂的背景使得在物体检测过程中难以检测到小物体
遮挡：对象被另一个对象隐藏或遮挡时会产生这个问题。
多个空间空间、变形或对象旋转
由于运动模糊而在相机上捕获的视觉条纹或拖尾

一个好的多目标跟踪器（MOT）

通过在每帧的精确位置识别正确数量的跟踪器来跟踪对象。
通过长期一致地跟踪单个对象来识别对象，
尽管有遮挡、照明变化、背景、运动模糊等，仍可跟踪对象。
快速检测和跟踪物体

常见的 MOT 算法

1、基于质心的对象跟踪

基于质心的对象跟踪利用视频中两个连续帧之间检测到的对象质心之间的欧几里得距离。

Intersection-over-Union 是另一种对象跟踪技术，它通过后续帧的空间重叠将后续帧的检测与轨迹相关联。

Visual IOU Object Tracker 有两个方向工作；对象的视觉前向和后向跟踪有助于合并中断的轨迹。

2、简单的在线实时跟踪 (SORT)

SORT 方法假设跟踪质量取决于对象检测性能。SORT 首先使用 Faster Region-CNN (FrRCNN) 检测对象。

通过预测其在当前帧中的新位置来更新使用卡尔曼滤波框架优化解决的目标状态，将对象检测与检测到的边界框相关联。

为每个检测分配Cost矩阵来计算与来自现有目标的所有预测边界框之间的交并联合（IOU）距离。使用匈牙利算法解决分配问题。

SORT算法有助于减少遮挡目标，当物体运动较小时，Id切换效果很好。SORT 在具拥挤场景和快速运动的情况下可能会失败

Deep SORT：Deep SORT 是 SORT 的扩展，允许通过更长时间的遮挡进行跟踪，实现简单并且可以实时运行。

Deep SORT采用单一的传统假设跟踪方法，具有递归卡尔曼滤波和使用匈牙利算法的逐帧数据关联。

外观特征描述了给定图像的所有特征。Deep SORT 还利用类似于 SORT 的匹配级联来对更常见的对象进行优先级排序。

Deep SORT 减少了 ID 切换和遮挡，从而降低了误报率。

3、FairMOT（多目标跟踪）

FairMOT 不使用首先检测对象及其边界框，然后进行对象跟踪的多任务方法，如 SORT 和 Deep SORT。FairMOT 认为网络偏向于主要检测任务，这对 re-ID 或对象跟踪任务是不公平的。

在 FairMOT 中，对象检测和重新识别任务得到同等对待。

输入图像被馈送到编码器-解码器网络以提取高分辨率特征图。

FairMOT 然后添加了两个同质分支，用于检测对象和提取 re-ID 特征，以获得检测和 re-ID 之间的良好折衷。

4、BytrTrack 算法

ByteTrack 使用高性能 YOLOX 对视频执行 MOT，并使用 BYTE 执行检测框和轨道之间的关联。

BYTE 保留所有检测框并将它们分为高分（Dʰᶦᵍʰ）和低分（Dˡᵒʷ）。使用卡尔曼滤波器来预测 T 中每个轨道的当前帧中的新位置。

BYTE 中的第一个关联是在高分检测框 Dʰᶦᵍʰ 与所有 tracklets 之间执行的。第一个关联的相似性是使用 IoU 或检测框 Dʰᶦᵍʰ 与轨道的预测框 T 之间的 Re-ID 特征距离计算的。

一些 tracklet 无法匹配是因为它们与适当的高分检测框 Dʰᶦᵍʰ 不匹配，这在发生遮挡、运动模糊或大小变化时发生。

第二次关联是在低分检测框 Dˡᵒʷ 与剩余的未匹配轨迹 (Tʳᵉᵐᵃᶤⁿ) 之间的第一次关联之后执行的，这样可以恢复低分检测框中的对象并过滤掉背景。

将不匹配的目标保留在 Tʳᵉ-ʳᵉᵐᵃᶤⁿ 中，并删除所有不匹配的低分检测框，因为它们被视为背景。

MOT评估指标

MOT 评估指标需要解决 MOT 中的五种错误类型。这五种错误类型是假阴性（FN）、假阳性（FP）、碎片化、合并（ID切换）和偏差。

MOT 评估指标还应该具有单调性，并且错误类型应该是可区分的，以便指标具有跟踪器对五种基本错误类型中的每一种的性能。

常用的MOT评估指标

1、Track-mAP

Track mAP 在轨迹级别执行匹配和关联，它基于置信度排序的潜在跟踪结果进行操作。Track-mAP 在检测中是非单调的。

2、多目标跟踪精度- MOTA

MOTA 是最广泛使用的指标，可以密切代表人类视觉评估。在 MOTA 中，匹配是在检测级别完成的。在 MOTA 中使用身份切换 (IDSW) 测量关联，当跟踪器错误地交换对象身份或轨道丢失并使用不同的身份重新初始化时，就会发生关联。MOTA 测量三种类型的跟踪错误：False Positive, False Negative, and ID Switch

3、识别指标：IDF1

IDF1 强调关联准确性而不是检测。IDF1 使用 IDTP（Identity True Positives），其中当 S ≥ α 的轨迹时，prID 与 grID 匹配。IDF1 是正确识别的检测与地面实况和计算检测的平均数量之比。匈牙利算法选择要匹配的轨迹以最小化 IDFP 和 IDFN 的总和。

IDF1 结合了 IDP(ID Precision) 和 IDR(ID Recall)。

HOTA：高阶跟踪精度

HOTA 是用于对跟踪器进行排名的统一度量标准。HOTA 可以分解为对应这五种错误类型的组件：Detection Recall、Detection Precision、Association Recall、Association Precision 和 Localization Accuracy。因此，HOTA 的错误类型是可微的并且是严格单调的，提供有关跟踪器在每种不同基本错误类型方面的性能信息。

HOTA 跟踪错误分为检测错误、关联错误和定位错误。

当跟踪器预测到不存在的检测或未能预测目标的检测时，就会发生检测错误。检测误差可以进一步分为检测召回率（由 FNs 衡量）和检测精度（由 FPs 衡量）
当跟踪器将相同的 prID 分配给具有不同 gtID 的两个检测或将不同的 prID 分配给应该具有相同 gtID 的两个检测时，会发生关联错误。关联误差进一步分为关联召回误差（由 FNA 测量）和关联精度（由 FPA 测量）
当 prDets 在空间上与 gtDets 不完全对齐时，就会发生定位错误。

MOTA 在局部检测级别执行匹配和关联评分，但强调检测精度，而 IDF1 通过强调关联效果在轨迹级别执行。

Track-mAP 类似于 IDF1，因为它在轨迹级别执行匹配和关联，并且偏向于测量关联。

HOTA 通过在检测级别执行匹配，同时在轨迹上对关联进行全局评分，通过作为检测分数和关联分数的显式组合来平衡两者。

编辑：王菁