使用条件卷积进行实例和全景分割
点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
我们提出了一个简单而有效的框架,用于实例和全景分割,称为CondInst(条件卷积的实例和全景分割)。在文献中,最优秀的实例分割方法通常遵循Mask R-CNN范式,并依赖ROI操作(通常是ROIAlign)来处理每个实例。相反,我们建议使用动态条件卷积处理实例。我们不是使用实例明智的roi作为固定权重的实例掩码头的输入,而是设计动态的实例感知掩码头,以要预测的实例为条件。CondInst有三个优点:实例和全景分割被统一到一个完全卷积的网络中,消除了对ROI的裁剪和特征对齐的需要。2)。消除ROI裁剪也显著提高了输出实例掩模的分辨率。3)。由于动态生成的条件分布的能力大大提高,面具头非常紧凑(如3 conv.层,每个只有8频道),导致更快推理每个实例,使整体推理时间几乎不变,与实例的数量无关。我们演示了一种更简单的方法,可以在实例和全景分割任务上实现更高的精度和推理速度。在COCO数据集上,我们优于一些最先进的方法。我们希望CondInst可以成为一个强大的基线,例如全景分割。
代码链接:https://git.io/AdelaiDet
我们将我们的主要贡献总结如下。
我们尝试从一个新的角度来解决实例分割问题,即使用动态掩模头。与现有的Mask R-CNN等方法相比,这一新的解决方案获得了更好的实例分割性能。据我们所知,这是第一次一个新的实例分割框架在精度和速度上超过了最近的国家最先进的水平。
CondInst是完全卷积的,并且避免了前面提到的许多现有方法中使用的调整大小操作,因为CondInst不依赖于ROI操作。不需要调整特征地图的大小,就可以得到具有更精确边缘的高分辨率实例掩码。
由于CondInst中的掩码头非常紧凑,与box检测器FCOS相比,CondInst只需要10%的计算时间就可以获得掩码结果,即使在处理每张图像的最大实例数(即100个实例)时也是如此。总的推断时间也是稳定的,因为它不依赖于映像中的实例数量。
通过额外的语义分割分支,CondInst可以很容易地扩展到全景分割,从而为实例和全景分割任务生成统一的全卷积网络。
CondInst实现了最先进的性能,在实例和全景分割任务,同时是快速和简单的。我们希望CondInst能够成为实例和全景分割任务以及其他实例级识别任务(如关键点检测)的强大替代方案。
CondInst的整体架构。C3、C4、C5为骨干网(如ResNet-50)的特征图。P3到P7是FPN的特征映射,如[26],[43]。Fbottom为底部分支s的输出,其分辨率与P3相同。在[6]之后,底部的分支聚合了功能映射P3、P4和P5。Fbottom是通过连接相对坐标到Fbottom得到的。分类头预测目标实例在位置(x, y)处的分类概率px,y,与FCOS相同。控制器为实例生成掩模头的滤波器参数θx,y。与FCOS类似,也有与控制器并行的中心度和盒头(为了简单起见,图中没有显示)。注意,虚线框中的头重复应用于P3···P7。蒙版头部是实例感知的,在F底部的应用次数为图像中实例数的多少。
通过附加一个语义分割分支来实现全景分割的CondInst插图。语义分割分支在[22]之后。从实例分割和分割的结果分割分支结合在一起使用相同的后处理在[23]。
城市景观的定性结果。值得注意的是,CondInst可以很好地歪曲细节(最好在屏幕上观看)。
在COCO数据集上的全景分割结果(在屏幕上看得更好)。颜色编码类别和实例。正如我们所看到的,CondInst表现得很好。
我们提出了一个新的和简单的实例分割框架,称为CondInst。与之前的Mask R-CNN等方法不同,前者使用固定权重的掩码头,将掩码头限定在实例上,并动态生成掩码头的过滤器。这不仅减少了掩模头的参数和计算复杂度,而且消除了ROI操作,从而得到了一个更快、更简单的实例分割框架。据我们所知,CondInst是第一个框架,可以在准确性和速度上超过Mask R-CNN,无需更长的训练时间表。我们相信CondInst可以成为一个新的强大的替代屏蔽R-CNN实例分割。
论文链接:https://arxiv.org/pdf/2102.03026.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。
- END -
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~