CVPR2020 | D3S: 判别式单镜头分割跟踪器
点击下方卡片,关注“新机器视觉”公众号
视觉/图像重磅干货,第一时间送达
现有跟踪算法中存在的问题
对于目标定位的搜索问题仅适用于目标的低维变换(平移、尺度放缩),不能有效地解决更为常见的变换(横纵比改变、旋转等)
现有方法用基于采样的搜索或者边界框回归方式对目标框的横纵比进行估计,受到矩形框自身的限制(需要与坐标轴对齐)
当边界框不能很好地表示目标时,基于模板的变换估计不一定可靠。比如当目标自身伸展时,矩形边界框为了包含完整的目标,会圈入很多无关的背景信息。目标在旋转时也是类似,不同切面的外观之间差异很大。简单来说就是模板难以充分地表达目标的各种可能的外观。在面对这些情况时,逐像素分割能够实现更准确的定位,于是跟踪问题转变为了视频物体分割问题。
视频物体分割一直依赖无法直接用于跟踪,一般起到的是辅助作用,这是因为视频物体分割要解决的问题是短时长(100 帧以内)视频中的大物体分割,而在跟踪中,目标的外观变化差异很大,并且会在杂乱的背景当中移动,直接将视频分割用于跟踪会导致无法恢复的跟踪失败。
SiamRPN 的问题。SiamRPN 生成高质量分割掩码图的过程分为两步,一是通过 SiamRPN 分支定位边界框,二是通过另一个分支在这个边界框区域中计算掩码图,这种两步过程将定位和分割步骤分开,没有将二者联合利用提高鲁棒性(存疑:两个任务一起如何提高鲁棒性?)。另一个问题是固定的模板难以适应变化的场景(一般是通过模板更新解决这个问题)。
使用两个视觉模型 GEM(geometrically constrained Euclideanmodel)和 GIM(geometricallyinvariant model)表示目标,几何位置模型和几何不变模型,一个约束目标移动的位置,一个约束目标的形状,二者结合后能够为分割提供可靠的样本
GIM 牺牲空间相关性换取在目标外观显著变化条件下预测边界框大小的能力,GEM 只负责确定边界框的位置(中心点),二者并行计算,最后融合输出。
经过网络的一次传播,D3S 的主要输出是一个分割图(热力图),是仅用于分割端到端训练的。
D3S 可将分割图转换为带有旋转的矩形,替代原来容易出错的贪婪搜索方法。
D3S 未经过传统边界框跟踪的训练,并且没有根据不同的数据集进行重训练,具有优异的泛化能力和灵活性。
算法流程
a. 将第一帧输入骨干网络提取特征
b. 将提取的特征分别输入GIM模块和GEM模块,通过GIM模块得到前景和背景信息,通过GEM模块得到定位信息
c. 将三者通过Concat融合,然后输入refinement得到第一帧mask和bounding box
d. 在跟踪时,使用骨干网络提取待跟踪帧搜索区域的特征
e. 将提取的特征输入GIM模块,通过与第一帧搜索区域比较得到像素级的前景相似度和背景相似度
f. 取每个像素相似度最高的前K个,然后分别求平均得到该帧的前景相似度和背景相似度
g. 重复c即可得到该帧的mask和boundingbox
—版权声明—
仅用于学术分享,版权属于原作者。
若有侵权,请联系微信号:yiyang-sy 删除或修改!