Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >3DSSD:基于点云的single-stage物体检测模型 | CVPR2020

3DSSD:基于点云的single-stage物体检测模型 | CVPR2020

作者头像
3D视觉工坊
发布于 2020-12-11 09:11:43
发布于 2020-12-11 09:11:43
7110
举报

前言

这是一篇来自CVPR2020的研究工作,于2020/4/9日开源,如下图所示,目前被接收的文章有在KITTI上的有四篇,分别是PV-RCNN,SA-SSD,Point-GNN和这一篇文章,应该说pvrcnn在精度上是独树一帜的远高于第二名的,不过这些文章在创新性上也是非常值得研究的

这一篇来自港中文和港科的研究工作,贾佳亚组在3D检测方向有很多值得深入思考和研究的文章,之前的诸如Point-rcnn, FastPoint Rcnn,STD都是这个组的工作,同样厉害的还有MM-LAB,出了PVRCNN ,Part^A等工作。

paper:https://arxiv.org/pdf/2002.10187.pdf code:https://github.com/tomztyang/3DSSD

本文主要内容概括

本文主要从point-based的研究入手,考虑如何解决掉以前的point-based的方法的瓶颈,即时间和内存占有远远大于voxel-based的方法,从而作者设计了新的SA模块和丢弃了FP模块到达时间上可达25FPS,此外本文采用一个anchor freeHead,进一步减少时间和GPU显存,提出了3D center-ness label的表示,进一步提高的精度。可视化效果如下:

摘要

1)目前基于LIDAR点云输入的3D检测深度学习网络主要分voxel-based和point-based两大类,其中voxel-based的方法已经有了一定的发展,但是point-based方法没有得到很好的发展。

1. 基于voxel的方法的发展:CVPR18的voxelnet是voxel-based方法的开山之作,但是当时voxelnet由于3D CNN的使用导致很大的显存占用,18年sensors的ECOND引入了稀疏卷积使得内存占用大大减少,同时该文引入了一个从标注集合sample的数据增广方案,次年的CVPR19的pointpillars则是直接将voxel改进为pillar直接跳过了3D卷积这一步骤,后续的19年ICCV则是将基于voxel的方法的参数优化(由于稀疏卷积的引入,使得更小的voxel可以被使用)以及改进为两阶段的方法fastpointrcnn,其中STD是直接将体素划分改为了球体划分(具有更好的方向性)。同样的19年的NIPS的文章有开始考虑从整个场景中粗略的先注意到大致的object,再对该场景进行划分。该类的方法的核心思想就是把点云的无序性通过体素划分使其规整,但是不可避免的会有信息丢失。

2. 基于Point的方法比较难以解决的是场景点云的无序性问题,19年的CVPR的Point RCNN是一篇完全基于点做的3D目标检测方法,但是该方法采用的anchor设置是对每一个场景点都会认为是,会造成很大的冗余,后续再次基础上延展性不是很大。

3. 当然19年还有很多好的工作,比如CVPRW19中有文章采用RNN+attention的方式将大场景的点云裁缝后再送入RNN结构中,还有一些从小处入手的工作,将二维目标检测的IOU Loss引入到三维点云结构中;由于稀疏卷积的引入,将子流型卷积和3D稀疏卷积结构融合设计的3D backbone等等;为了提升效率,将voxel和point方式结合的方法等等

2)本文提出的3D-SSD是一个综合利率和精度的one-stage的目标检测框架。

作者这里提出观点,如果要point-based的方法提高效率,就必须要要改进或者丢掉耗时很久的上采样(PointNet++中的FP模块),因此作者的做法是设计了一种采样策略,通过下采样得到的少数点去预测detections也成为可能。

3)作者为了实现采用point-based的方法,同时又能兼顾精度和效率,设计了candidate generation layer和anchor-freeregression head以及3D center-ness assignment strategy。

4)这是一个 onestage anchor free的目标检测方法,比所有的 voxel-based的但阶段检测方法效果都要好,能达到25FPS。

这里值得一提的是,在3D目标检测中,称第一个anchor-free的文章应该是OHS,也是19年底的一个工作,它采用的方法类似part(作者文章中称为hotspots)去预测detection。

背景及前人研究

文章首先介绍了3D检测的应用,之后是目标的2D方法取得了很大的发展,但是在3D上并不能直接套用2D的检测方法,这是因为点云的稀疏性和无规则性。

1. 为了解决上诉提到的点云的稀疏性和无规则性带来的挑战,一些方法开始采用将点云投影到图像中,这样就能得到密集的表达形式。

  • 这类文章出现在17-18年的工作比较多,包括有CVPR17的[1],采用MV融合的方法;而后在18年的CVPR上将深度学习完全引入点云检测中,开创了voxel-based方法的先河的voxelnet[2],这是一篇非常经典的voxel-based文章,目前已有500的引用,后续的很多工作都在此基础上发展的。
  • 上诉的voxel-based方法尽管很高效,但是在划分体素过程中不可避免的会造成信息的丢失,这一点在MMLAB CVPR2020的文章PVRCNN中采用pointnet的可变感受野来减少信息丢失。

2. 上诉的方法都是优先考虑怎么把LiDar数据先规整化,但是point-based方法是直接在每一个点上预测得到对应的Bbox,一般会分为两步,第一步是通过SA模块(出自 pointnet++)和下采样提取contextfeature,然后是通过FP(也是pointnet++模块)将全局特征上采样传递给那些没被采样到的点,采用的方式是反卷积,再然后通过RPN网络得到proposals;第二步是refine,在proposals的基础上优化得到最后的detections

3. 本文的突出贡献点

  • 这是一个 One-stage anchor free的方法。
  • 提出了下采样融合策略F-FPS和D-FPS,目的是替换点上述的FP模块,使得计算损耗大大减少。
  • 在KITTI上和NuScence上的实验效果很好

4. 大体结构

在SA模块后,作者设计了CG层(candidate generation )整合局部信息;在CG层中,作者首先将representative points生成候选点,候选点的生成由这个代表点的和该点对应的object的中心坐标值的监督训练;接着作者将这个候选点当做为中心,再从F-FPS和D-FPS的集合点中找到他们的周围点,最后采用MLP提取他们的融合特征。这些特征最终会被送入到一个anchor free head中来预测最后的3D bbox。

网络结构

1. Point-based方法的瓶颈

▲瓶颈1——FP层的丢弃与保留

以往基于点的检测方法通过SA模块可以得到context features,但是仅仅只有采样的点才会有这些特征,没有被采样的点就没有特征,因此需要FP模块将这些特征传递给没有被采样到的点,作者给出了如下的表格:

  • 这里的SA采用了4层SA layer(标准Pointnet++设计),FP是4层FPlayer,同时refine 模块是3层SA layer
  • 这里的FP模块似乎占比并不大,但是如果将FP去掉,肯定是能降低计算损耗的,同时本文的研究为一阶段的方式,后续的优化模块也是不存在的。

因此作者的想法是将FP层丢掉来降低运行时间,首先最容易想到的设计方案是直接采用SA最后剩下的采样点进行预测,但是由于前人的采样是D-FPS,也就是欧式距离的最远点采样,就会使得采样点中很多的背景点,仅仅靠仅存的几个前景采样点预测出结构几乎是做不到的,所以直接丢弃不做任何处理是不可行的。作者在NuScene给出了统计出的对比结果:

从表格中我们可以看出,采用D-FPS的采样方法,如果采样点为512个时,object的内点占比仅仅只有一半了,是很不足够的(比笔者想象的多一些),但是如果选用F-FPS(特征空间采样),那么效果会好一些。

总结一下,FP层如果保留,那么会保留很大的时间消耗,以致于和voxel-based的方法比较起来没有任何优势,如果直接丢弃,会造成很大精度损失。

▲作者的改进——F-FPS

前人采用的D-FPS算法是在欧式空间中进行的最远点采样,并不会考虑到该点的任何属性特征;作者因此引入了F-FPS,在语义信息的引导下,能够排除大量的背景点信息,保留更多的前景点信息。但如果仅仅只使用FFPS,会保留很多同一个object的点,也会导致精度下降,因此作者同时考虑了欧式和特征空间的采样信息。

因此作者采用上述的综合采样方法。正如上表的采样结构显示得到了一定的效果提升。

▲瓶颈2——F-FPS导致分类分数下降

作者指出,尽管采样使用F-FPS可以提高前景点中的占比,这对回归是很有帮助的,但是背景点过少的时候对分类是不友好的,在后面的消融实验中也可以看出,尽管F-FPS能提高回归得分,但是对分类却分数不如D-FPS的方法。为解决这个问题,作者采用混合采样的设计,如果最终采样点个数为个,那么其中的个点分别采用的是上述的D-FPS和F-FPS的采样法。

2. bbox预测网络

▲CGLayer

前人的研究工作都是在得到每个点的feature后,接上三层的SA layer,分别用于中心点选择、周围点特征提取以及生成语义信息。但是本文作者为了进一步降低计算成本,候选中心点的生成是直接在F-FPS采样后进行的,如下图所示,可以看的出来,F-FPS采样的点由于比D-FPS的点更加可能是前景点,所以后选点仅仅只是在F-FPS的点上生成,也就是candidate points;接着作者将这些候选中心点当做CGlayer的中心点。(作者在这里挖坑表明不采用采样点作为CGlayer的中心是考虑了最终的性能,在后续会提及到);同样的下一步则是根据候选中心点领域选择从F-FPS和D-FPS中采样得到的代表点进行局部特征提取,采用MLP进行特征提取。

▲Overall Structure

从如上的结构图可以看出上面提及到的作者设计的结构:

1.SA layer

  • 前人的SA layer都是按照pointnet++文章中的那样设计,但是本文的SA正如前面提到的融合的欧式空间和特征空间的采样方法,并且各自采取一半的点,然后多个SA模块组合就可以得到这样的backbone。
  • 这里根据数据集的不同,在backbone的设计层数也是不同的,作者给出了在KITTI和Nuscence上的结构如下,看的出来NuScene场景更复杂。

2.CG layer

这一层的目主要是:

  • 得到候选中心点
  • 通过候选中心点整合周围采样点提取语义信息

3.Prediction Head

如上图,回归和分类

▲Anchor-free Regression Head

前面的overall structure中的第三部分的回归网络结构。作者首先指出假设本文采用anchor-based的方法的话,每增加一个类别,则需要在全场景增加不少的anchor。再考虑到方向旋转性,就更多了。

插入一点,在3D检测网络中,都是按照预先设置的object级别的大小anchor,在全场景中每隔一段距离就设置一个anchor,同时每个anchor有几个不同的朝向。就是说,每增加一类的物体,计算量就是线性增加的。

考虑到上面的计算量,作者采用的是anchor free的head,回归的也是一样的七个量,这里需要指出的是通过点预测是没有预先设置朝向的,因此作者采用分类和回归的混合表达式。

4.3DCenter-ness Assignment Strategy

在二维中,label分配的方法有采用IOU阈值,mask这两种方法;FCOS这篇文章将二值的pix label扩展为连续性的label,越是靠近object中心的pix所得到的分数也就设置越大;在3DLidar数据上,由于点云数据都在物体的表面,因此他们的center-ness都非常小并且接近的,这会导致从这些点不太可能得到好的预测结果。这里也就是前面为什么不用原始的采样点作为候选点当做CG layer层输入的中心,而是从F-FPS采样后再朝向object中心靠近后的点作为候选点,因为靠近中心的候选点可以有更加接近和更加准确的结果,同时根据center-ness label可以轻松和object的表面的点区分开。

作者采用定义center-ness label通过两步:

  • 首先确定该点是否在一个object中
  • 通过画出object的六面体,然后计算该点到其前后左右上下表面的距离,再通过以下公式得到其对应的center-ness值。

3.损失函数

全部损失函数分为分类损失、回归损失和偏移损失(这个是指从采样代表点到候选点得到时的损失函数)

上式的表示所有候选点的个数,表示为候选点中前景点的个数。

1.其中分类损失函数采用的是交叉熵损失函数,其中分别表示预测得分和center-ness 分数。2.回归loss中分为下面几部分:

  • 距离回归,即是中心点坐标的回归,采用smooth l1函数
  • size回归,即是回归bbox的l,w,h,采用smooth L1函数
  • 角度回归,回归偏航角yaw,角度回归也分为两部分,第一部分是分类,第二部分是残差回归,如下:
  • 角点损失,corner loss,即是八个角点的损失函数,如下,其中 分别表示对应的预测的角点坐标

3.shifting loss 偏移损失函数是在CG layer中被监督训练,即预测候选采样点到object中心点的残差,采用smooth L1损失函数。这里是 表示F-FPS采样到的postive的候选点的个数。

实验

1.KITTI

一些实现细节:

  • 随机采样到16384个点输入
  • 为了防止过拟合,作者采用了四中数据增广,分别是mix-up策略(SECOND的作者提出过这个解决方案),对每一个标注框有随机旋转和平移,第三,沿着x轴随机尺度变化。第四,全场景点云沿着z轴随意旋转。
  • 最近有一篇文章有研究过数据增广在3D检测中的应用

实验结果:

2.nuScenes

这个数据集是19年CVPR推出的新的自动驾驶数据集,有着更大的场景和更复杂的分类任务,每一帧有超过4w个点,其中有一些关键帧,前人的方法都是将关键帧和随后的0.5s的帧结合以致于超过40w个点来做目标检测(最近有一篇通过点云流的方式做3D目标检测的文章[4],而且已经开源),这对于point-based的方法来说就是灾难。

值得一提的是,19年提出的数据集nuScence目前还有很多值得可做的,之前有一篇采用class balance loss的方法做到了nuscence的榜首,目前也已经开源,不过此时改了名字叫det3D的这样一个架构,该架构也已经集成了很多的sota的方法。

3.消融实验

  • 融合采样方法
  • shifting in CG layer
  • point-based的方法的时间对比

推荐阅读文献

[1]Multi-view3d object detection network for autonomous driving. [2]Voxelnet:End-to-end learning for point cloud based 3d object detection [3]Fcos:Fully convolutional one-stage object detection [4]LiDAR-based Online 3DVideo Object Detection with Graph-based MessagePassing and SpatiotemporalTransformer Attention

上述内容,如有侵犯版权,请联系作者,会自行删文。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-04-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 3D视觉工坊 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
Voxel RCNN:高性能3D目标检测网络(AAAI2021)
来源丨https://zhuanlan.zhihu.com/p/390497086
3D视觉工坊
2021/07/27
1.1K0
CVPR2020 | 3DSSD算法性能SOTA并且速度比PointRCNN快两倍
当前有很多种single-stage的(single-stage:一次完成检测步骤,two-stage: 候选区域提取+分类两步完成检测)基于体素的3D目标检测器,但是基于Point的single-stage检测算法仍然有很大的优化空间。本文首先提出了一种轻量级和高效的基于Point的3D single-stage 目标检测器,并命名为3DSSD,该算法很好的平衡了精度和效率上的取舍。传统的基于点的算法为了更好的执行效果,都会存在上采样和细化网络层结构,而本文算法为了降低计算量去掉了这种结构。本文创新性的提出了一种融合采样策略可以检测到少量的具有代表性的点用于实现降采样。为了满足我们对精度和速度的要求,本文提出了一个盒预测网络,包含一个通过anchor-free regression head的3D非中心复制策略构建的候选区域生成层。我们的算法是一个简练的single-stage anchor-free框架,与其他算法相比我们的算法有被不可比拟的优势。我们分别在被广泛使用的Kitti数据和更具挑战性的nuScenes上,对3DSSD算法进行了测试。本文的算法比当前所有的基于体素的single-stage检测算法取得了更好的效果,同时性能达到与two-stage point-based的算法相当的水平,但是推理速度可以超过20Hz,比当前最好的point-based算法快2倍。
CNNer
2020/06/19
1.1K0
CVPR2020 | 3DSSD算法性能SOTA并且速度比PointRCNN快两倍
3D点云two-stage目标检测方法优化综述
和二维图像目标检测一样,3D点云目标检测除了按照输入模态划分为基于点云、基于单目、基于双目或者是多模态融合的方法。也可以按照对proposal的提出和优化分为one-stage、two-stage甚至three-stage的方法。当然也可以再根据是否设置anchor分为anchor-based和anchor-free的工作。下图表示了目前的一些近两年的文章,包括了室内和室外的点云目标检测算法。
3D视觉工坊
2020/12/11
1.1K0
更快更精准的感知,元戎启行提出基于LiDAR的3D物体检测新框架|CVPR 2020
近日,L4级自动驾驶解决方案提供商元戎启行的一篇关于3D物体检测的论文被CVPR2020收录,论文题为“HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection”。
CV君
2020/04/07
9840
更快更精准的感知,元戎启行提出基于LiDAR的3D物体检测新框架|CVPR 2020
Lidar-RCNN:基于稀疏点云的3D目标检测网络(CVPR2021)
来源丨https://zhuanlan.zhihu.com/p/390322842
3D视觉工坊
2021/07/27
1.1K0
MMDetection3D | "3Dfy" A General 2D Detector :纯视觉3D检测再思考
这篇文章将沿着近年来 3D 检测的发展脉络,通过和 2D 检测对比,分析 3D 检测中的核心问题,并着重探讨对于纯视觉 3D 检测的再思考。
OpenMMLab 官方账号
2022/01/18
8580
MMDetection3D | "3Dfy" A General 2D Detector :纯视觉3D检测再思考
物体可见性信息在3D检测中的探索CVPR2020(oral)
本文是一篇来自Carnegie Mellon大学和Argo AI的合作工作,目前已经被CVPR20接收(oral),该文的主要内容是基于点云的3D目标检测,与以往的研究内容不同的是,本文基于观察发现在BEV视图中无法区分free和unknown区域,如下图中(a)展示的两个红色框所示,在BEV看上去都是不包含点的free space。但是假如通过lidar的扫描的激光对该图重新绘制如图(b),其中绿色表明为激光扫描到的区域,白色为未知的区域,即白色是被前景物体所遮挡的区域,而绿色是真正被扫描到的,因此,我们可以得到的信息是左边的红框区域表示的是未知,而右边实际上是真正的freespace。因此本文的作者正是利用freespace的信息来提高检测精度。
3D视觉工坊
2020/12/11
9870
物体可见性信息在3D检测中的探索CVPR2020(oral)
CVPR2020 | 3D目标检测点云检测新网络 PV-RCNN
今天这一篇是19年12月30日放到arxiv上的,其实在CVPR2020截止后就一直在关注在关注的一篇文章,毕竟在KITTI的3D检测上高居榜首,并且远远的超过了第二名。如下:
小白学视觉
2020/09/22
1.1K0
CVPR2020 | 3D目标检测点云检测新网络 PV-RCNN
汇总|3D目标检测文章(CVPR2020)
今年CVPR20-paper-list前几天已经出了,所以这里做一点大致的综述介绍在CVPR20上在3D目标检测的一些文章。如下图所示,3D目标检测按照大方向可以分为室外和室内的目标检测,室内场景数据集一般有ScanNet等,该领域研究比较少,笔者注意到的第一篇文章是来自FAIR的voteNet,采用霍夫投票机制生成了靠近对象中心的点,利用这些点进行分组和聚合,以生成box proposals。今年在CVPR20上也至少有两篇该文章的后续工作,分别是来自pointnet之父的Imvotenet,地址是:https://arxiv.org/pdf/2001.10692.pdf;另外一篇MLCVNet来自南京大学和卡迪夫大学的联合工作 ,文章地址:https://arxiv.org/pdf/2004.05679,该文章在vote的基础上利用自注意力机制融合Multi-scale的特征。 此外,在室外场景的目标检测中,可以大致按照输入分为lidar-input,image-input和multi-sensors-fusion的研究工作。
3D视觉工坊
2020/12/11
9560
AAAI2021论文:一个高性能3-D目标两步检测法Voxel R-CNN
AAAI2021录取论文 “Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection“,作者来自中科大和香港中文大学。
3D视觉工坊
2021/01/28
9860
AAAI2021论文:一个高性能3-D目标两步检测法Voxel R-CNN
3D版CenterNet: CenterPoint,小修小改也能刷爆榜单
最近3d目标检测领域出了一篇新作,思路简单,却在nuScenes榜单上高居第二。正式讲解它之前,先附上文章和代码地址:
3D视觉工坊
2020/12/11
2.2K0
3D目标检测深度学习方法数据预处理综述
这一篇的内容主要要讲一点在深度学习的3D目标检测网络中,我们都采用了哪些数据预处理的方法,主要讲两个方面的知识,第一个是representation,第二个数据预处理内容是数据增广。 作为本篇博文的引言,我们先给一种博主制作的比较重要的3D检测方法图鉴,如下,就笔者的个人理解,今年的CVPR出现了很多的one-stage的方法,同时出现了很多融合的方法,这里的融合有信息融合,有representation融合,同时根据近两年的发展来看,voxel-based的方法占据了主导地位,这是得益于卷积结构优越性(point-based方法采用pointnet++结构,是MLP搭建的),但是今年的oral文章3D-SSD是一篇在point-based方法上很有建树的文章,所以在3D检测中了解主要的representation代表方法也是很重要的。
3D视觉工坊
2020/12/11
6780
3D目标检测深度学习方法数据预处理综述
3D点云 | 基于深度学习处理点云数据入门经典:PointNet、PointNet++
不同于图像数据在计算机中的表示通常编码了像素点之间的空间关系,点云数据由无序的数据点构成一个集合来表示。因此,在使用图像识别任务的深度学习模型处理点云数据之前,需要对点云数据进行一些处理。目前采用的方式主要有两种:
AI算法修炼营
2020/06/09
10.2K0
近期激光雷达点云的3D目标检测方法
来源丨https://zhuanlan.zhihu.com/p/370650927
计算机视觉
2021/05/20
1.1K0
3D目标检测深度学习方法之voxel-represetnation内容综述(二)
前面的一篇文章:3D目标检测深度学习方法中voxel-represetnation内容综述(一)中笔者分享了如果采用voxel作为深度学习网络输入的backbone的几个重要的模块。也就是目前比较流行的One-stage的方法SECOND的1.5版本,在KITTI和Nuscenes的榜单上都能算是19年比较经典和高效的方法,这一篇文章,笔者填一下上一篇文章的坑,上一篇文章中说到目前的方法可以按照精度和速度两个方面做出研究,其中因为voxel-representation的方法本身是高效的,因此主要在速度上做出研究的方法还是远远少于在精度上做文章的。 笔者看到的在精度上做文章的研究工作主要可以分为如下几种:(1)refine(2)loss(3)fusion(4)backboe -structure(5)others。 下面笔者就这几种改进方式选择一些典型的文章做一定的简单分享,如果要深入理解文章的改进,还是很需要研究文章本身和阅读其代码的。
3D视觉工坊
2020/12/11
7200
3D目标检测深度学习方法之voxel-represetnation内容综述(二)
3D目标检测深度学习方法之voxel-represetnation内容综述(一)
笔者上一篇文章有介绍了3D目标检测中比较重要的数据预处理的两个方面的内容,其一是几种representation的介绍,分别是point、voxel和grap三种主要的representation,具体的可以表示为如下(这里的grids即是voxel)。上一篇文章也分析了这三种representation的优缺点:(1)point-sets保留最原始的几何特征,但是MLP感知能力不及CNN,同时encoder部分下采样采用了FPS(最远点采样)(目前就采样方法的研究也挺多,均匀采样,随机采样或者特征空间采样其异同都是值得思考研究的),FPS采样对比voxel的方法会更加耗时(2)voxel的方法在精度和速度上都是独树一帜的,但是不可避免的会有信息丢失,同时对体素参数相对比较敏感。(3)grah的表示在3D目标检测上,在CVPR20上才提出来,就Graph的backbone时间消耗比较久,比point的方法还要就更多,但是直观上看graph的结构增加了边信息更加容易机器感知。
3D视觉工坊
2020/12/11
1.2K0
3D目标检测深度学习方法之voxel-represetnation内容综述(一)
基于三维点云场景的语义及实例分割:RandLA-Net和3D-BoNet
公开课地址:https://www.shenlanxueyuan.com/open/course/53
深蓝学院
2020/09/09
3.5K0
基于三维点云场景的语义及实例分割:RandLA-Net和3D-BoNet
FCOS:全卷积一阶段Anchor Free物体检测器,多种视觉任务的统一框架
这是众多Anchor Free中比较有影响力的一篇文章,不光是效果好,而且思路清楚,简单,不需要任何trick,并将众多的视觉任务统一到了一个框架中,值得一看。
OpenCV学堂
2020/09/25
4730
FCOS:全卷积一阶段Anchor Free物体检测器,多种视觉任务的统一框架
CVPR 2021 | SensatUrban: 城市规模点云数据集
研究人员构建了一个城市规模的摄影测量点云数据集,并通过大量实验,指出了大规模三维点云语义理解中面临的问题,包括如何对大规模点云进行采样和分区,是否需要使用RGB颜色信息,类别分布不均衡以及泛化性能等。
点云PCL博主
2021/03/24
2K0
CVPR 2021 | SensatUrban: 城市规模点云数据集
做目标检测,这6篇就够了:CVPR 2020目标检测论文盘点
目标检测是计算机视觉中的经典问题之一。凭借大量可用数据、更快的 GPU 和更好的算法,现在我们可以轻松训练计算机以高精度检测出图像中的多个对象。
机器之心
2020/07/28
1.7K0
做目标检测,这6篇就够了:CVPR 2020目标检测论文盘点
推荐阅读
相关推荐
Voxel RCNN:高性能3D目标检测网络(AAAI2021)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档