前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CVPR 2022 | 将X光图片用于垃圾分割,港中大(深圳)探索大规模智能垃圾分类

CVPR 2022 | 将X光图片用于垃圾分割,港中大(深圳)探索大规模智能垃圾分类

作者头像
机器之心
发布于 2022-08-25 11:20:30
发布于 2022-08-25 11:20:30
2000
举报
文章被收录于专栏:机器之心机器之心

机器之心专栏

作者:李易寒

研究者表示,这一工作有望让大规模的智能垃圾分类检查成为可能,提升垃圾分类回收的效率,减少环境污染。

近些年来,社会的发展带来了生活垃圾的爆发性增长,实行垃圾分类既可以减少对自然环境的破坏,同时对垃圾中的可回收资源进行回收再利用,也带来更大经济效益。垃圾分类的的检查工作是其中的重要一环,只有正确的分类才能提升回收效率和避免环境污染。传统的分类检查方法依赖于人工的翻阅。而现有的图像检查方法也需要打开垃圾袋并且把垃圾摊开。这些检查方法存在两大缺点:

  1. 翻开垃圾袋的过程比较繁琐,且对于接触垃圾的人存在污染、传播疾病的风险;
  2. 复杂繁多的垃圾容易产生视线遮挡,容易出现遗漏和错判。

考虑到上述的问题,我们提出了以下的解决方案:

  • 提出了第一个基于 X 光图片的、实例级别的垃圾分割数据集 (WIXRay)。数据集中包含 5,038 张 X 光图片,共 30,845 个垃圾物品实例。对于每个实例,我们标注了高质量的类别、bbox 以及实例级别的分割。
  • 在现有实例分割方法的基础上针对 X 光垃圾图片遮挡严重、有穿透效果的特点进行改进,提出了从易到难的策略,设计了 Easy-to-Hard Instance Segmentation Network (ETHSeg),利用高置信度的预测结果来帮助严重重叠区域的难预测物体的分割。另外,我们还增加了一个全局轮廓模块来更好地利用 X 光下物体的轮廓信息。
  • 论文链接:https://openaccess.thecvf.com/content/CVPR2022/papers/Qiu_ETHSeg_An_Amodel_Instance_Segmentation_Network_and_a_Real-World_Dataset_CVPR_2022_paper.pdf
  • 项目主页:https://lingtengqiu.github.io/2022/ETHSeg/
  • GitHub 地址:GitHub - lingtengqiu/ETHSeg: ETHSeg: An Amodel Instance Segmentation Network and a Real-world Dataset for X-Ray Waste Inspection (CVPR2022)

一、基于 X 光图片的实例分割垃圾数据集 WIXRay (Waste Item X- Ray)

此前有关垃圾分类的数据集均为稀疏的、无遮挡的 RGB 图片,这些数据的识别效率低,实际操作难度大。而已有的 X 光图像实例分割数据集多为安检物品数据集,并且这些数据集鲜有严重遮挡的情况。为了得到真实有效的垃圾分类数据集,我们提出了用 X 光扫描垃圾袋来获取稠密、有遮挡的垃圾识别数据集

数据收集

收集地点:近 8,000 居民的学校社区

垃圾类别。我们根据现有的垃圾分类方法将所有的垃圾分为可回收垃圾,厨余垃圾,有害垃圾和其他垃圾。在此基础上,我们把收集到的最常见的垃圾分为十二小类:

  • 可回收垃圾:塑料瓶,易拉罐(金属罐),纸盒,玻璃瓶,木棒(筷子),餐具;
  • 厨余垃圾:主要为食物残渣;
  • 其他垃圾:暖宝宝,干燥剂,饭盒;
  • 有害垃圾:电池(充电宝),灯泡。

具体的数量统计如下:

注:对于部分分布不平衡的类别,我们在数据采集时人为添加了事先准备的物品,例如有害垃圾中的两类。

数据标注

对于每一个垃圾物体,我们都标注了它们的类别、bbox 和实例级别的 mask。由于 X 光有穿透性, 我们可以在 X 光图像上看到重叠的物体。

因此,与传统实例分割标注不同,我们对于所有有遮挡的物体都标注了完整的形状。平均每张图片标注了 6.13 个实例,远高于此前的 X 光数据集(e.g. HiXray 2.27 个)

二、Easy-to-Hard 分割网络 (ETHSeg)

现有的实例分割方法大多针对自然图片设计,并没有考虑 X 光图像的穿透特性和一些严重遮挡的情况。因此,针对这两点,我们设计了 ETHSeg 来解决 X 光下垃圾物体实例分割的问题,主要的方法有两点:(1)显式地利用全局轮廓引导模块来获取物体的轮廓信息;(2)提出了从易到难的分解策略 (ETH) 来帮助分割遮挡区域难以分割的物体。

Baseline: Bilayer convolution network (BCNet)

BCNet 是一个自上而下的实例分割的 SOTA 方法。该方法使用了双层 GCN 结构来解决物体间遮挡的问题。尽管该方法在自然图片中取得了很好地效果,但由于 X 光图像的穿透效果和严重的遮挡,该方法在我们的数据集上效果不佳。我们在 BCNet 基础上提出了改进。

BCNet 的分割网络可以被表示为:

其中 X ∈ R (HW )×C 为输入的特征,A ∈ R (HW )×(HW ) 为自注意力模块,W 是可学习的变换矩阵,σ 表示带有 ReLU 的归一化层,Z 为更新后的特征。F 会计算两个节点 X_i 和 X_j 的点乘相似度,θ 和 ϕ 为 1 × 1 卷积。

BCNet 会将提取的 ROI 特征 X_roi 输入到第一个 GCN 层得到更新的特征 Z_0 并且求出遮挡物(occluder)的轮廓和 mask。之后更新的特征 Z_0 会被加到 ROI 特征上作为第二层 GCN 的输入(X_f = X_roi + Z_0)。第二个 GCN 层会进一步求出被遮挡物(occludee)的轮廓和 mask。

全局轮廓引导模块

BCNet 的方法虽然能够通过两层 GCN 以及轮廓和 mask 的监督解决一些局部的遮挡问题,但是该方法的轮廓监督只使用了 ROI 部分的局部监督,这对于严重遮挡而且物体轮廓比较清晰的 X 光图像效果不佳。

因此,我们设计了一个全局轮廓引导模块来更好地利用 X 光图片中的轮廓信息。我们将 backbone 得到特征上采样并预测一个全局轮廓图作为并行任务。轮廓图的监督使用高斯分布的热图表示。

从易到难的分解策略

针对数据集中的严重遮挡问题,受到人类在物体识别时,先认出简单、清晰的物体,再分辨识别困难的物体的这种方式的启发,我们提出了从易到难的分解策略。我们在分割前先根据置信度将所有物体的 bbox 分成 easy 和 hard 两个集合。

对于 easy 集合中的 bbox,我们直接求出它们的mask,同时使用 GCN 层求出更新后的特征(Z^i)_e:

easy 集合中求得的 mask 将被用于增强自注意力网络来帮助 hard 集合的分割。

与 BCNet 不同的是,我们从 easy 和 hard 集合中提取的特征是属于不同的 ROI,因此不能将两组特征直接相加。因此,我们首先根据 ROI 坐标将 easy 集合中预测的 mask 映射到整张图片的相应位置,并使用 element-wise max 与全局的 mask P 融合。P 采用软掩码,表示每个像素包含于物体的概率。利用软掩码 P , 我们提出了 mask-guided attention (A_g) 来引导 hard 集合的实例分割:

其中⊙ 表示 Hadamard product。之后同样求出 hard 实例的 mask 和更新后的特征 Z^j 并更新全局软掩码 P :

三、实验结果

基准实验

我们在 WIXRay 数据集上进行了大量的实验,包括了 one-stage 和 two-stage 的经典模型和 SOTA 模型。所有的模型均采用 ResNet-101-FPN 作为骨干网络并使用 COCO 预训练模型。实验得到的指标显示我们提出的新数据集对于一般的实例分割模型具有很大的挑战性。我们提出的 ETHSeg 模型在 mask mAP 指标上超过原来的 SOTA BCNet 1.74 点,在 bbox mAP 上也有所提升

分割结果展示

如图所示,相比于一般的实例分割模型或 BCNet,ETHSeg 在结果上漏检更少,在重叠的区域的分割准确度更高。

消融实验

实验表明,在相同的检测结果下,我们提出的两个结构(Global Structure Guidance 和 Easy-to-Hard Dissembling)对于实例分割的结果均有提升。若同时使用两个模块,则 mask mAP 有进一步地提升(总共 + 1.32)

四、结论

针对现有的人工和视觉进行垃圾检查的缺陷,我们提出用 X 光图像帮助垃圾分类的检查:

  • 我们提出了第一个基于 X 光图片的、实例级别的垃圾分割数据集 (WIXRay);
  • 针对 X 光垃圾图片遮挡严重、有穿透效果的特点进行了改进。我们提出了从易到难的策略, 设计了 Easy-to-Hard Instance Segmentation Network (ETHSeg),并在 WIXRay 数据集上达到了 SOTA。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-08-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CVPR2021 双图层实例分割,大幅提升遮挡处理性能
物体的互相遮挡在日常生活中普遍存在,严重的遮挡易带来易混淆的遮挡边界及非连续自然的物体形状,从而导致当前已有的检测及分割等的算法性能大幅下降。本文通过将图像建模为两个重叠图层,为网络引入物体间的遮挡与被遮挡关系,从而提出了一个轻量级的能有效处理遮挡的实例分割算法。
CV君
2021/06/08
1.8K0
CVPR2021 双图层实例分割,大幅提升遮挡处理性能
Deep Snake : 基于轮廓调整的SOTA实例分割方法,速度32.3fps | CVPR 2020
论文: Deep Snake for Real-Time Instance Segmentation
VincentLee
2020/03/26
1.3K0
7 Papers & Radios | MIT研究登Science;腾讯深度学习推荐系统首次入选OSDI顶会
机器之心 & ArXiv Weekly Radiostation 参与:杜伟、楚航、罗若天 本周重要论文包括腾讯深度学习推荐系统首次入选 OSDI 顶会;罗彻斯特大学和 Adobe Research 的研究者提出新模型 CM-GAN,可以修复大面积缺失图像。 目录: Ekko: A Large-Scale Deep Learning Recommender System with Low-Latency Model Update   Wave equations estimates and the nonl
机器之心
2022/08/25
3350
7 Papers & Radios | MIT研究登Science;腾讯深度学习推荐系统首次入选OSDI顶会
CVPR 2019 | 腾讯AI Lab联合清华大学提出基于骨骼姿态估计的人体实例分割
目前主流的高精度实例物体分割框架都是基于很强的物体检测方法,如 Fast/Faster R-CNN, YOLO 等。虽然不同的方法设计了不同的结构,但是这些方法都遵循着一个基本的规则:首先从图像中生成大量的候选区域,然后用非极大值抑制(NMS)算法从这些数以千计的候选区域中剔除那些重复的候选区域。
机器之心
2019/06/20
1.4K0
CVPR 2019 | 腾讯AI Lab联合清华大学提出基于骨骼姿态估计的人体实例分割
华为&国科大LSNet | Anchor-free新玩法,一个head统一目标检测、实例分割、姿态估计三种任务(已开源)
目标检测,实例分割和姿态估计本质上都是识别物体,只是表征物体的形式有所不同,目标检测用bbox,实例分割用mask,姿态估计用keypoint。既然都是识别物体,能否只用一套方案来实现这三个任务?能
公众号-arXiv每日学术速递
2021/05/18
8780
华为&国科大LSNet | Anchor-free新玩法,一个head统一目标检测、实例分割、姿态估计三种任务(已开源)
基础模型还是微调? 河流污染少镜头语义分割的评价
近年来,基础模型(FMs)已成为人工智能(AI)研究的热点领域。它们以能够轻易地泛化到新领域和任务的能力而著称,为研究和产业都带来了令人激动的机会。但是,从产业角度来看,FMs只有在它们在给定任务上超越专门为此任务训练的模型时才更有效。因为实际生活中的数据往往与用于研究的数据存在显著差异,因此在行业环境中预训练的数据集可能无法匹配当前的任务。因此,FMs或对现有模型进行微调是合理的选择,虽然在某些情况下选择并不明显。微调模型被认为需要大量的优质数据进行训练,而工业环境中获取这些数据并不容易。在这种情况下,FMs可能是解决方法。在本工作中,作者研究了一个人是否应该使用FMs而不是微调现有的模型。
未来先知
2024/10/29
1480
基础模型还是微调? 河流污染少镜头语义分割的评价
CVPR2020:Deep Snake 用于实时实例分割
1) 提出了一种基于学习的用于实时实例分割的蛇算法,介绍了用于轮廓学习的圆形卷积。
小白学视觉
2020/06/11
1.4K0
14篇论文入选CVPR!快手视觉研究成果精华总结
机器之心发布 机器之心编辑部 在正在进行的 CVPR 2021 上,快手有多篇论文被接收,涵盖三维视觉、目标检测、视频目标分割、人脸伪造技术检测等热门研究领域。 计算机视觉和模式识别领域的顶级会议 CVPR 正在进行中,本次大会接收率为 23.7%,其中快手有 14 篇论文被接收,这也是快手在国际视觉技术相关领域顶级会议上中稿最多的一次,研究成果数量的阶段性爆发标志着快手产学研合作从探索期逐步进入成熟期。 此次快手的中稿论文,涵盖了三维视觉、目标检测、视频目标分割、人脸伪造技术检测等热门研究领域,部分研究成
机器之心
2023/03/29
5570
14篇论文入选CVPR!快手视觉研究成果精华总结
实例分割最新最全面综述:从Mask R-CNN到BlendMask
实例分割(Instance Segmentation)是视觉经典四个任务中相对最难的一个,它既具备语义分割(Semantic Segmentation)的特点,需要做到像素层面上的分类,也具备目标检测(Object Detection)的一部分特点,即需要定位出不同实例,即使它们是同一种类。因此,实例分割的研究长期以来都有着两条线,分别是自下而上的基于语义分割的方法和自上而下的基于检测的方法,这两种方法都属于两阶段的方法,下面将分别简单介绍。
BBuf
2020/03/04
13K0
实例分割最新最全面综述:从Mask R-CNN到BlendMask
腾讯AI大迈步!58篇论文入选CVPR 2019,超去往年总和
今年CVPR入选论文已公布,全球共有5165篇投稿,1299篇收录,同比去年增长32%(2017年论文录取979篇)。
量子位
2019/04/23
9310
腾讯AI大迈步!58篇论文入选CVPR 2019,超去往年总和
视觉 AI 系统,能否解史上最严“垃圾分类”阵痛?
AI 浪潮滚滚而来赋能各业的今天,是否能够引入信誉机制,利用AI摄像头助力垃圾分类?
AI掘金志
2019/08/29
5220
视觉 AI 系统,能否解史上最严“垃圾分类”阵痛?
美团无人配送CVPR2020论文CenterMask解读
计算机视觉技术是实现自动驾驶的重要部分,美团无人配送团队长期在该领域进行着积极的探索。不久前,高精地图组提出的CenterMask图像实例分割算法被CVPR2020收录,本文将对该方法进行介绍。CVPR的全称是IEEE Conference on Computer Vision and Pattern Recognition,IEEE国际计算机视觉与模式识别会议,它和ICCV、ECCV并称为计算机视觉领域三大顶会。本届CVPR大会共收到6656篇投稿,接收1470篇,录用率为22%。
美团无人配送
2020/05/09
8250
美团无人配送CVPR2020论文CenterMask解读
斩获CVPR 2023竞赛2项冠军|美团街景理解中视觉分割技术的探索与应用
视觉分割技术在街景理解中具有重要地位,同时也面临诸多挑战。美团街景理解团队经过长期探索,构建了一套兼顾精度与效率的分割技术体系,在应用中取得了显著效果。同时,相关技术斩获了CVPR 2023竞赛2项冠军1项季军。本文将详细介绍街景理解中分割技术的探索与应用,希望能给从事相关研究工作的同学带来一些帮助或启发。
美团技术团队
2023/09/05
4980
斩获CVPR 2023竞赛2项冠军|美团街景理解中视觉分割技术的探索与应用
CVPR 2022 | 刷新4个SOTA!港大&字节开源ReferFormer: 语言作为查询的参考视频目标分割框架
在本文中,来自香港大学和字节跳动的研究者们提出了一种基于Transformer的参考视频目标分割新框架ReferFormer。其将语言描述视为查询条件,直接在视频中查找目标对象,除此之外,通过实例序列的整体输出自然地完成目标物体的跟踪,无需进行任何后处理。ReferFormer在四个参考视频目标分割数据集上都取得了当前最优的性能。
Amusi
2022/04/18
6830
CVPR 2022 | 刷新4个SOTA!港大&字节开源ReferFormer: 语言作为查询的参考视频目标分割框架
21个深度学习开源数据集分类汇总
本文收集整理了21个国内外经典的开源数据,包含了目标检测、图像分割、图像分类、人脸、自动驾驶、姿态估计、目标跟踪等方向。
3D视觉工坊
2022/01/21
2.6K0
21个深度学习开源数据集分类汇总
[调研] 通用实例分割方法[通俗易懂]
文章提出two-stage、real-time的instance segmentation方法:1、得到初始的目标轮廓;2、轮廓迭代变形,以得到最终精准的目标边界;
全栈程序员站长
2022/09/23
1.1K0
[调研] 通用实例分割方法[通俗易懂]
CVPR 2020 | PolarMask:将实例分割统一到FCN,有望在工业界大规模应用
我今天要介绍的是我们在CVPR 2020上被录用的文章《PolarMask: Single Shot Instance Segmentation with Polar Representation》,介绍一种single shot的实例分割框架PolarMask。
AI科技评论
2020/02/26
1.4K0
视频分割在移动端的算法进展综述
语义分割任务要求给图像上的每一个像素赋予一个带有语义的标签,视频语义分割任务是要求给视频中的每一帧图像上的每一个像素赋予一个带有语义的标签。
SIGAI学习与实践平台
2019/04/26
2.1K0
视频分割在移动端的算法进展综述
【深度学习】图像语义分割
语义分割(Semantic Segmentation)是图像处理和机器视觉一个重要分支,其目标是精确理解图像场景与内容。语义分割是在像素级别上的分类,属于同一类的像素都要被归为一类,因此语义分割是从像素级别来理解图像的。如下如所示的照片,属于人的像素部分划分成一类,属于摩托车的像素划分成一类,背景像素划分为一类。
杨丝儿
2022/03/20
8.7K0
【深度学习】图像语义分割
深度学习500问——Chapter09:图像分割(4)
其中黑色部分为原来的Faster-RCNN,红色部分为在Faster 网络上的修改:
JOYCE_Leo16
2024/05/24
1300
深度学习500问——Chapter09:图像分割(4)
推荐阅读
相关推荐
CVPR2021 双图层实例分割,大幅提升遮挡处理性能
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档