深入理解深度学习分割网络Ｕnet——U-Net: Convolutional Networks for Biomedical Image Segmentation

全栈程序员站长

发布于 2022-08-10 10:57:32

2.1K0

大家好，又见面了，我是你们的朋友全栈君。

##背景

	Ｍask = Function(I)

什么是图像分割问题呢？简单的来讲就是给一张图像，检测是用框出框出物体，而图像分割分出一个物体的准确轮廓。也这样考虑，给出一张图像Ｉ，这个问题就是求一个函数，从I映射到Mask。至于怎么求这个函数有多种方法。我们可以看到这个图，左边是给出图像，可以看到人和摩托车，右边是分割结果。

求这个函数有很多方法，但是第一次将深度学习结合起来的是这篇文章全卷积网络(FCN)，利用深度学习求这个函数。在此之前深度学习一般用在分类和检测问题上。由于用到CNN，所以最后提取的特征的尺度是变小的。和我们要求的函数不一样，我们要求的函数是输入多大，输出有多大。为了让CNN提取出来的尺度能到原图大小，FCN网络利用上采样和反卷积到原图像大小。然后做像素级的分类。可以看图二，输入原图，经过VGG16网络，得到特征map,然后将特征map上采样回去。再将预测结果和ground truth每个像素一一对应分类，做像素级别分类。也就是说将分割问题变成分类问题，而分类问题正好是深度学习的强项。如果只将特征map直接上采样或者反卷积，明显会丢失很多信息。

3. FCN采取解决方法是将pool4、pool3、和特征map融合起来，由于pool3、pool4、特征map大小尺寸是不一样的，所以融合应该前上采样到同一尺寸。这里的融合是拼接在一起，不是对应元素相加。

4. FCN是深度学习在图像分割的开山之作，FCN优点是实现端到端分割等，缺点是分割结果细节不够好，可以看到图四，FCN8s是上面讲的pool4、pool3和特征map融合，FCN16s是pool4和特征map融合，FCN32s是只有特征map，得出结果都是细节不够好，具体可以看自行车。由于网络中只有卷积没有全连接，所以这个网络又叫全卷积网络。

##Unet网络结构