这是专栏《图像分割模型》的第12篇文章。在这里,我们将共同探索解决分割问题的主流网络结构和设计思想。
本文是专栏的最后一篇文章,见识过了分割任务中的大量模型,也了解了语义分割与实例分割,这篇文章我们一起来看一下新概念“全景分割”。
作者 | 孙叔桥
编辑 | 言有三
本期论文
《Panoptic Segmentation》
1 全景分割
与之前介绍的语义分割与实例分割不同,全景分割任务(Panoptic Segmentation)要求图像中的每个像素点都必须被分配给一个语义标签和一个实例id。其中,语义标签指的是物体的类别,而实例id则对应同类物体的不同编号。
目前,分割任务大多按照不可数目标(stuff类别)和可数目标(things类别)进行单独的分割。造成二者无法统一在同一分割任务下的主要原因是缺少合适的度量矩阵。
除此之外,全景分割的实现也面临着其他难题。比如,与语义分割相比,全景分割的困难在于要优化全连接网络的设计,使其网络结构能够区分不同类别的实例;而与实例分割相比,由于全景分割要求每个像素只能有一个类别和id标注,因此不能出现实例分割中的重叠现象。
全景分割效果示例
全景分割的具体分割形式有以下两点要求:
全景分割与语义分割的关系:
如果所有的类别都是stuff,那么全景分割除了度量与语义分割不同外,其它相同。
全景分割与实例分割的关系:
全景分割中不允许重叠,但实例分割可以;此外,实例分割需要每个分割的置信概率,但全景分割不需要。尽管如此,全景分割内为了辅助机器的辨识,也是可以引入置信概率的概念的。
2 度量矩阵
为了将stuff类别和things类别统一在一个分割任务下,全景分割的度量应当具有以下三个性质:
基于此,全景分割的度量被分为了分割匹配(segment matching)和全景质量计算(panoptic quality computation)两个部分。
其中,第二项将每个类别分为三类:true positives(TP)、false positives(FP)和false negative (FN),分别对应配对的分割、不配对的分割和不配对的真值分割。下图中给出了一个示例,分别展示了person类别是如何被划分进上述三类中的。
综上,全景分割质量的度量由下式定义:
其中,分子是对所有匹配上的分割求平均IoU;分母后两项是惩罚匹配错误的点,即通过增加分母使得分割质量下降。
全景分割与现有分割度量的比较:
3 数据库及实验结果
目前就作者已知的全景分割数据库只有Cityscapes、ADE20k和Mapillary Vistas。
下面是三个数据库的链接,有需要可以自取:
Cityscapes:https://www.cityscapes-dataset.com/
ADE20k:http://groups.csail.mit.edu/vision/datasets/ADE20K/
Mapillary Vistas:
https://blog.mapillary.com/product/2017/05/03/mapillary-vistas-dataset.html
下图是在Cityscapes下的分割结果:
总结
《图像分割模型》专栏到这里就全部结束了,希望通过这12期的介绍,能够让大家对图像分割有一个基本的了解。