对象检测和图像分割有什么区别?
点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
01.人工智能中的图像预处理
对象检测和图像分割是计算机视觉的两种方法,这两种处理手段在人工智能领域内相当常见,本文将介绍对象检测和图像分割之间的区别。
在这两个任务中,我们都希望找到图像上某些特定项目的位置。例如,我们可能有一组安全摄像机图片,并且在每张图片上,我们要标识图片中所有人员的位置。通常有两种方法可用于此目的:对象检测和图像分割。
02.对象检测—预测边界框
当我们谈论对象检测时,我们通常谈论的是边界框。这意味着我们的图像处理将在我们的图片中识别每个人周围的矩形。边框通常由左上角的位置(2个坐标)以及宽度和高度(以像素数为单位)定义。
如何理解物体检测方法?如果我们回到任务:识别图片上的所有人,则可以理解通过边界框进行对象检测的逻辑。解决方案的第一个直觉可能是将图像切成小块,然后在每个子图像上应用图像分类,以说明该图像是否是人类。对单个图像进行分类是一项较容易的任务,并且是对象检测的一项,因此,他们采用了这种分步方法。
目前来讲,YOLO模型(You Only Look Once)是解决这一问题的伟大发明。YOLO模型的开发人员已经构建了一个神经网络,该神经网络能够立即执行整个边界框方法!
当前用于物体检测的最佳模型
• YOLO
• Faster RCNN
03.图像分割—预测蒙版
逐步扫描图像的逻辑替代方法是远离绘图框,而是逐像素注释图像。如果这样做,我们将拥有一个更详细的模型,该模型基本上是输入图像的转换。
如何理解图像分割方法?
这个想法是基本的:即使在扫描产品上的条形码时,也可以应用一种算法来转换输入(通过应用各种滤波器),从而使条形码序列以外的所有信息在最终图片中变得不可见。
这是在图像上定位条形码的基本方法,但与“图像分割”中发生的情况相当。
图像分割的返回格式称为遮罩:与原始图像具有相同大小的图像,但是对于每个像素,它仅具有一个布尔值,指示对象是否存在。
如果我们允许多个类别,它可能会变得更加复杂:例如,它可以将海滩景观分为三类:空气,海洋和沙滩。
当前最佳的图像分割模型
• Mask RCNN
• Unet
• Segnet
04.总结
物体检测
• 输入是一个矩阵(输入图像),每个像素3个值(红色,绿色和蓝色),如果黑色和白色则每个像素1个值
• 输出是由左上角和大小定义的边界框的列表
图像分割
• 输入是一个矩阵(输入图像),每个像素3个值(红色,绿色和蓝色),如果黑色和白色则每个像素1个值
• 输出是一个矩阵(蒙版图像),每个像素包含已分配类别的1个值
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~