如今,照片逼真的编辑需要仔细处理自然场景中经常出现的颜色混合,这些颜色混合通常通过场景或对象颜色的软选择来建模。因此,为了实现高质量的图像编辑和背景合成,精确表示图像区域之间的这些软过渡至关重要。工业中用于生成此类表示的大多数现有技术严重依赖于熟练视觉艺术家的某种用户交互。因此,创建如此准确的显著性选择成为一项昂贵且繁琐的任务. 为了填补熟练视觉艺术家的空白,我们利用计算机视觉来模拟人类视觉系统,该系统具有有效的注意力机制,可以从视觉场景中确定最显着的信息。这类问题也可以解释为前景提取问题,其中显着对象被视为前景类,其余场景为背景类。计算机视觉和深度学习旨在通过一些选择性研究分支对这种机制进行建模,即图像抠图、显著目标检测、注视检测和软分割。值得注意的是,与计算机视觉不同,深度学习主要是一种数据密集型研究方法。
随着近年来使用全卷积网络 (FCN) 进行图像分割的兴起,深度学习显著改善了前景提取和显著性检测基线。尽管有这些改进,但大多数建议的架构使用最初为图像属性分类任务设计的网络主干,它提取具有语义意义的代表性特征,而不是全局对比度和局部细节信息。
是的,如果我们从输出格式的角度来看,这是一个分割问题。近年来,语义分割已成为计算机视觉和深度学习领域的一个关键问题。因此,从更大的场景来看,我们可以说语义分割是该领域的关键任务之一,它为更好地理解场景铺平了道路。从图像和视频中推断认知事实的应用越来越多,这也突出了场景理解的重要性。
细粒度语义分割的三种方法:
图像抠图
显着目标检测 (SOD)
软分割
图像抠图可以理解为绿屏抠像的广义版本,用于在无约束设置中精确估计前景不透明度。图像抠图是计算机图形学和视觉应用中一个非常重要的课题。早期的图像抠图方法涉及大型稀疏矩阵,例如大型核抠图拉普拉斯算子及其优化。然而,这些解决此类线性系统的方法通常非常耗时且不受用户欢迎。许多研究试图通过使用自适应内核大小和 KD 树来提高这种线性系统的求解速度,但在野生图像的质量和推理速度方面没有观察到显着的改进。由于问题是高度不适定的,用户通常会给出一个trimap(或笔划)来表示明确的前景、明确的背景和未知区域,作为支持性输入。
让我们首先制定一个基本的图像抠图公式。将图像像素的背景颜色、前景色和前景不透明度分别表示为 B、F 和 α,像素的颜色 C 可以写为 B 和 F 的组合:
C = F (α)+ B(1 − α)。
图像抠图方法可以分为三种主要类型,基于传播的、基于采样的和基于学习的。在某些方法中,还使用了基于采样和基于传播的抠图的混合组合。
基于采样的图像抠图基于以下假设:未知像素的真实背景和前景颜色可以从位于该未知像素附近的已知背景和前景像素导出。一些基于采样的方法:
基于传播的图像抠图技术通过将已知局部背景和前景像素的 alpha 值传播到未知区域来计算未知像素的 alpha 值。然而,在野生背景图像的情况下,对颜色知识的过度依赖导致图像中背景和前景色的分布重叠的伪影。一些基于传播的方法:
Geodesic 抠图
Close-form 抠图
Poisson 抠图
Spectral 抠图
尽管如此,采样和基于传播的技术都无法提供令人满意和完全自动化的结果。因此,一些深度学习研究者提出了一些方法,可以通过将trimap 和 RGB 图像串联输入到 FCN 中来解决上述线性系统,或者仅通过 RGB 图像本身来预测最终的 alpha 蒙版。