▍一、医学图像分割简介

医学影像分割是医学影像分析中的重要领域，也是计算机辅助诊断、监视、干预和治疗所必需的一环，其关键任务是对医学影像中感兴趣的对象（例如器官或病变）进行分割，可以为疾病的精准识别、详细分析、合理诊断、预测与预防等方面提供非常重要的意义和价值。

在医学影像分割任务中，目前主要存在以下几个难点：

标注数据少。造成该问题的一个重要的原因是收集标注困难，手工标注医学影像是一个费时费力的过程，而这个标注过程在实际的临床实践中可能并不需要。
传感器噪声或伪影。现代医学影像最基本的成像模态有 X 光、超声、CT 和 MRI 等，用于成像的医学设备会存在物理噪声和图像重建误差，而医学影像模态和成像参数设定的差别则会造成不同大小的伪影。
分割目标形态差异大。患者之间存在高矮胖瘦等体型差异，且病变的大小、形状和位置可能存在巨大差异，因此解剖结构上会有差异。不同的分割部位也存在差异，往往需要不同的算法，有时还需要考虑到先验知识的加入。
组织边界信息弱。人体内部的一些器官都是具有相似特征的软组织，它们相互接触且边界信息非常弱，而胰腺肿瘤、肝肿瘤、肾脏肿瘤等边界不清楚的肿瘤往往还非常小，导致很难被识别到。

▍二、基于 U-Net 的医学影像分割算法

U-Net

U-Net 是医学影像分割领域著名的一个网络架构，在 2015 年由 Ronneberger等人参加 ISBI Challenge 提出的一种基于 FCN 的分割网络。经过修改和扩展后的 U-Net 能够适应很小的训练集，并且输出更加精确的分割结果。U-Net 的上采样过程中依然有大量通道，这使得网络将上下文信息向更高分辨率传播，且其扩展路径与收缩路径对称，形成了一个 U 型的形状段，并通过跳跃连接的方式融合来自不同阶段的特征图。

图1 U-Net 网络架构

当面对医学影像分割任务时，U-Net 这种扩展路径和收缩路径所组成的编码—解码的网络架构成为了首选，同时发展出很多变体。

加入密集连接的 U-Net 算法

密集连接的思想来自于 DenseNet，在 DenseNet 出现之前，卷积神经网络的进化一般通过层数的加深或者加宽进行，DenseNet 通过对特征的复用提出了一种新的结构，不但减缓了梯度消失的现象同时模型的参数量也更少。U-Net++ 网络架构在 2018 年被 Zhou 等人提出，创新点在于将密集连接加入 U-Net 网络，从而引入深度监督的思想，并通过重新设计的跳跃连接路径把不同尺寸的U-Net 结构融入到了一个网络里。在原始的U-Net网络架构上，UNet++ 加入了更多的跳跃连接路径和上采样卷积块，用于弥补编码器和解码器之间的语义鸿沟。中间隐藏层使用的深度监督一方面可以解决 U-Net++ 网络训练时的梯度消失问题，另一方面允许网络在测试的阶段进行剪枝，减少模型的推断时间。

图2 U-Net++网络架构

U-Net++ 网络架构的第一个优势就是精度的提升，这是由于它整合了不同层次的特征，第二个是灵活的网络结构配合深度监督，让参数量巨大的深度神经网络在可接受的精度范围内大幅度地缩减参数量。但是因为多次跳跃连接操作，同样的数据在网络中会存在多个复制，模型训练时的显存占用相对较高，需要采用一些显存优化技术来更好地训练模型。

融合残差思想的 U-Net 算法

神经网络因为宽度和深度的增加，会面临梯度消失或梯度爆炸引起的网络退化问题，为此 He 等人提出了残差网络（ResNet）。残差块的输入通过残差路径直接叠加到残差块的输出之中，残差块会尝试去学习并拟合残差以保证增加的网络层数不会削弱网络的表达性能。

图3 ResNet 残差学习块

2019年 Ibtehaz 等人提出了 MultiResUNet 网络，MultiResUNet 运用残差思想改造了 U-Net 中的卷积块和跳跃连接。MultiResNet 使用一系列 3×3 卷积核来模拟 5×5 卷积核和 7×7 卷积核的感受野，卷积块的输入经过 1×1 卷积核后经由残差路径直接与卷积后的输入叠加，作者称之为 MultiResblock，在减少网络计算量的同时可以提取不同尺度的空间特征。作者同时提出了 ResPath 来减少跳跃连接过程中所丢失的空间信息，ResPath 由一系列的 3×3 卷积、1×1卷积和残差路径组成，编码器的输入特征图经过 ResPath 与解码器特征图连接，一方面减少了语义鸿沟，另一方面增强了网络的学习能力。

图4 MultiResUNet 网络架构

图5 MultiResUNet 的 MultiRes block 和 Res Path

集成注意力机制的 U-Net 算法

注意力机制借鉴了人类的注意力思维方式，最初被应用于基于 RNN 循环神经网络模型的图像分类、自然语言处理等深度学习任务中并取得了显著成果。2018年 Oktay 等人提出了 Attention U-Net 网络架构。AttentionU-Net 在对扩展路径每个阶段上的特征图与收缩路径中对应特征图进行拼接之前，使用了一个注意力门抑制无关区域中的特征激活来提高模型的分割准确性，在达到高分割精度的同时而无需额外的定位模块。与 U-Net 和相比，AttentionU-Net 在胰腺和腹部多器官分割数据集上，提升了分割的精度，同时减少了模型训练和推理的时间。

图6 Attention U-Net网络架构

面向 3D 影像的 U-Net 算法

3D U-Net 网络架构是原始 U-Net 网络架构的一个简单扩展，由 U-Net 的研究团队在 2016 年提出并应用于三维图像分割。因为电脑屏幕上只能展示二维的切片，所以直接在三维层面上标注分割标签比较困难。与此同时，相邻的二维切片往往包含了近似的图片信息。基于上述两个事实，作者提出了只需要稀疏标注的二维图像进行训练的 3D U-Net 网络架构。3D U-Net 通过将 U-Net 原来的 2D 卷积、池化、上采样操作替换成对应的 3D 操作，并加入 Batch Normalization 层实现了对三维医学影像的直接分割。

2016年 Milletari 等人提出了 V-Net 网络架构，是原始 U-Net 网络架构的另一种 3D 实现。V-Net 相比 3D U-Net 最大的亮点在于吸收了 ResNet 的思想，在网络拓展路径和收缩路径的每个阶段中都引入残差学习的机制。同时，V-Net 以步长为 2 的 2×2×2 卷积核取代拓展路径里的池化操作来降低特征图的分辨率。

V-Net 和 3D U-Net 都是针对三维医学影像所直接构建的端到端的深度卷积神经网络，目的是运用 3D 卷积从三维进行编码，以良好的分割某些在二维没有明显表征的病理。3D分割算法在利用医学影像的三维组织连通性方面具有优势，但相较2D分割算法其参数量更多，训练和推理过程对设备的算力要求更高。

参考资料：彭璟，罗浩宇，赵淦森等《深度学习下的医学影像分割算法综述》

仅用于学术分享，版权属于原作者。

若有侵权，请联系微信号:yiyang-sy 删除或修改！

—THE END—

基于 U-Net 的医学影像分割算法综述

▍一、医学图像分割简介

在医学影像分割任务中，目前主要存在以下几个难点：

标注数据少。造成该问题的一个重要的原因是收集标注困难，手工标注医学影像是一个费时费力的过程，而这个标注过程在实际的临床实践中可能并不需要。

传感器噪声或伪影。现代医学影像最基本的成像模态有 X 光、超声、CT 和 MRI 等，用于成像的医学设备会存在物理噪声和图像重建误差，而医学影像模态和成像参数设定的差别则会造成不同大小的伪影。

分割目标形态差异大。患者之间存在高矮胖瘦等体型差异，且病变的大小、形状和位置可能存在巨大差异，因此解剖结构上会有差异。不同的分割部位也存在差异，往往需要不同的算法，有时还需要考虑到先验知识的加入。

组织边界信息弱。人体内部的一些器官都是具有相似特征的软组织，它们相互接触且边界信息非常弱，而胰腺肿瘤、肝肿瘤、肾脏肿瘤等边界不清楚的肿瘤往往还非常小，导致很难被识别到。

▍二、基于 U-Net 的医学影像分割算法