感谢西交利物浦大学西浦国际创新港为本次教程提供NVIDIA DGX Station。
西交利物浦国际创新港致力于构建创新创业环境,使西交利物浦大学成为联结中国与世界创新创业的全球无缝衔接驱动中心。
摘要:本文融合了Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite和Vision meets Robotics:
✨本文提供了一套完整的基于Docker的目标检测研究环境搭建思路,对官方教程进行了一定的修改和补充。同时随文提供SSH和Jupyter server实践,均为可用状态,提供了可靠资料给小伙伴们探索。
标题:MonoRec: Semi-Supervised Dense Reconstruction in Dynamic Environments from a Single Moving Camera
本田最近与波士顿大学合作,公布了在旧金山湾区采集的104小时**驾驶行为数据集,总体积大约150GB。
✨本文结合官方文档,梳理了基于 mmdet3d 开发人工智能模型的基本流程,整理相关的代码和小工具。如遇任何问题,可以查阅官方文档,MMDetection3D 的官方文档还是写得很好的(就是有一些多模态的代码跑不通,本文会注释部分问题命令)
车辆是视频场景中最关键的对象之一,车辆 和 人 是视频检测永恒的话题。 车辆检测 是车辆分析中关键的一步,是后续进行 车型识别、车标识别、车牌识别、车辆特征 的基础。 关于检测的方法和
可靠、准确的定位和建图是大多数自动驾驶系统的关键组件.除了关于环境的几何信息之外,语义对于实现智能导航行为也起着重要的作用.在大多数现实环境中,由于移动对象引起的动态变化,这一任务特别复杂,这可能会破坏定位.我们提出一种新的基于语义信息的激光雷达SLAM系统来更好地解决真实环境中的定位与建图问题.通过集成语义信息来促进建图过程,从而利用三维激光距离扫描.语义信息由全卷积神经网络有效提取,并呈现在激光测距数据的球面投影上.这种计算的语义分割导致整个扫描的点状标记,允许我们用标记的表面构建语义丰富的地图.这种语义图使我们能够可靠地过滤移动对象,但也通过语义约束改善投影扫描匹配.我们对极少数静态结构和大量移动车辆的KITTI数据集进行的具有挑战性的公路序列的实验评估表明,与纯几何的、最先进的方法相比,我们的语义SLAM方法具有优势.
随着越来越多的领域引入了深度学习作为解决工具,大量的数据显然也就变得非常关键了。然而在相当长的时间里,立体匹配这个领域都缺乏大量的数据可以使用。我在文章74. 三维重建9-立体匹配5,解析MiddleBurry立体匹配数据集和75. 三维重建10-立体匹配6,解析KITTI立体匹配数据集介绍的两个著名的数据集MiddleBurry和KITTI都不是为了训练神经网络而制作——它们本身仅用于客观的衡量比较算法的质量。所以它们所包含的图像组数量都很有限。比如,MiddleBurry 2014年数据集就只有20组数据可用于训练算法。KITTI 2012, 194组训练图像, KITTI 2015, 200组训练图像。同时,这些数据集的场景都很有限,MiddleBurry的场景是在受控光照下实验场景。KITTI则主要集中在自动驾驶的公路场景,且其Ground Truth深度只占图像的50%左右。很显然,这样的数据集是不足以用于训练深度学习的网络模型的。
光流是计算机视觉的一个基本任务,它描述了视频中的运动信息,相关技术广泛应用于视频理解和处理、物体跟踪、三维重建、自动驾驶等场景。近日,来自香港中文大学和腾讯AI实验室团队的一篇论文入选了CVPR2019。
众所周知,frustum-pointnet是斯坦福大学PointNet作者Chales大神的成果,将pointnet用到了目标检测中,测试数据集是KITTI。该网络测试了车辆、行人、自行车三项检测任务,分别排名第三、第一、第一,效果相当不错了。
本文收集整理了21个国内外经典的开源数据,包含了目标检测、图像分割、图像分类、人脸、自动驾驶、姿态估计、目标跟踪等方向。
对于立体匹配的研究来说,高质量的数据集非常关键。我之前在文章74. 三维重建9-立体匹配5,解析MiddleBurry立体匹配数据集介绍了非常著名的MiddleBurry数据集,我们看到了这个数据集从初创到后面成熟的完整过程。但即便是其最新一代数据,也大多数集中在一些静态的室内场景,如下图所示。
文章:LiLO: Lightweight and low-bias LiDAR Odometry method based on spherical range image filtering
标准化数据集在多媒体研究中至关重要。今天,我们要给大家推荐一个汇总了姿态检测数据集和渲染方法的 Github 项目。
KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像(stereo),光流(optical flow),视觉测距(visual odometry),3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,还有各种程度的遮挡与截断。 3D目标检测数据集由7481个训练图像和7518个测试图像以及相应的点云数据组成,包括总共80256个标记对象。
本文是来自四季豆豆的CSDN的博客,主要是介绍各种数据集。如有补充请大家积极留言,并且希望大家能够在阅读论文或者有推荐的论文或者开源代码,只要和点云相关,都可以留言给群主,如果有必要将会出与你推荐相关的资料。希望大家能够积极参与分享。
网址:http://www.cvlibs.net/datasets/kitti/raw_data.php
来源丨https://zhuanlan.zhihu.com/p/406918022
选自arXiv 机器之心编译 参与:李亚洲、微胖、黄小天、蒋思源 近日,德国马克斯普朗克智能系统研究所(Max Planck Institute for Intelligent Systems)的自动驾驶视觉组联合苏黎世联邦理工学院(ETH-Zurich)计算机视觉与几何组发表了一篇 67 页的论文,介绍用于自动驾驶的计算机视觉方面的研究,从自动驾驶的历史开始,谈到了数据集与基准、摄像头模型与校准、目标识别、追踪等问题中的难题与顶尖研究成果。此篇文章对该论文进行了简介,因为篇幅过长,机器之心只对文章结构与引
KITTI数据集是自动驾驶领域最知名的数据集之一。可以用来从事立体图像、光流估计、三维检测、三维跟踪等方面的研究。
文章:DSP-SLAM: Object Oriented SLAM with Deep Shape Priors
由Kinect采集的包含三种不同难度的27个序列,GT得自Vicon,采集场景如下:
最近,欧卡智舶联合清华大学与西北工业大学的研究学者公开了一个针对真实内河水域场景下多传感器、多天气条件下的内河无人船数据集USVlnland 。为无人船及水面自动驾驶领域相关研究者提供一个平台和基准,推动解决内河无人船在真实场景应用中面临的挑战。
A Closer Look at Faster R-CNN for Vehicle Detection Intelligent Vehicles Symposium , 2016 :124-129
目前,自动驾驶领域已经出现很多数据集,例如 KITTI、Oxford、Cityscape、nuScenes、BDD100K 等。
上图中激光雷达位于圆圈的中心,周围产生的光点就是产生的3D点云。它的中心一般由一辆携带激光雷达的汽车来进行360度的扫描
Gridding Residual Network for Dense Point Cloud Completion
文章:Mesh-LOAM: Real-time Mesh-Based LiDAR Odometry and Mapping
对于许多无人驾驶或者 SLAM 初学者来说,搞一个真车或者选择一款良好的设备来进行算法测试通常是个很头大的问题,且还需要解决很多诸如传感器之间标定不好,多传感器时间未做同步,没有真正的 groundtruth 来检验算法的好坏等等问题。
机器学习AI算法工程 公众号:datayx 本项目里有40类旗帜 旗帜(包含40个种类旗帜),数据来着于网络,数据标注是个苦力活,本数据包含1600多张图片,花费接近一个星期标注完成,且用且珍惜!
论文: https://arxiv.org/pdf/2009.09934.pdf 代码: https://github.com/abhinavsagar/msnnff
虽然直接法SLAM在无纹理环境更加鲁棒,但是由于灰度图像的凸性特征导致光度误差的凸性仅在一个小区域内保持的问题,所以传统的直接法视觉SLAM在当跟踪点有较大位移时,可能陷入次优局部极小解,具体问题描述如下图,左边分别是对应区域的灰度图和语义概率图,右图相应的三维可视化,灰度图像保留了对象的细节,而道路的概率主要在道路边界上进行生成,对于语义对象边界上的点,语义概率的凸性在比灰度图像更大的区域中成立。
本文介绍的是CVPR2020入选论文《HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection》,作者来自元戎启行。
定位是移动机器人的一个基本问题。从自动驾驶汽车[1]到探索型微型飞行器(MAV)[2],机器人需要知道自己在哪里。这个问题对于多机器人系统来说更具有挑战性。在这种环境下,有效的协作通常假设共享对全局地图的理解[3],而且也需要考虑到每个智能体所拥有的独特信息,这是一个重要的内容。
第一个提出 「视觉惯性里程计+深度图」 的数据集 “Visual Odometry with Inertial and Depth” (VOID) dataset
在自动驾驶车辆导航、特别是在具有挑战性的环境中,将全球定位系统(GPS)和惯性测量单元(IMU)集成已成为实现可靠和精确位置跟踪的基石。虽然GPS提供了室外广泛的覆盖范围和高精度定位,但在室内或城市峡谷等信号受阻的地方,其性能会下降。相反,IMU独立于外部信号提供宝贵的运动数据,在无GPS信号的区域中不可或缺。然而,IMU的实用性受到随时间漂移的影响,这会导致从加速度数据推导出的速度和位置估计累积误差。
AI-TOD 在 28,036 张航拍图像中包含 8 个类别的 700,621 个对象实例。与现有航拍图像中的目标检测数据集相比,AI-TOD 中目标的平均大小约为 12.8 像素,远小于其他数据集。
同时定位与地图重建(Simultaneous Localization and Mapping, SLAM),是机器人领域中的一项基础的底层技术,其希望机器人能在一个陌生的环境下实现自身的实时定位,同时能够重建出有关于环境的地图。随着近年无人驾驶、增强现实、虚拟现实等应用的兴起,作为实现这些应用的SLAM技术也越发引人注目。SLAM技术主要完成两项任务:自身定位与环境建图,也是让机器知道自己在哪里,已经周围的环境是啥。然而,如果想要精确的实现定位任务就不可避免的需要高精度的地图,而高精度的地图重建是需要以更为精确的自身定位作为基础的。 近年以来,除了传统的激光SLAM解决方案,基于视觉,基于惯性传感器等等的解决方案也在不断变多,整个SLAM领域整体呈现百花齐放的态势。 一. 目前在SLAM领域中的关键问题: 1、数据关联:SLAM技术在未来的发展过程中必然会有一个方向是将SLAM系统中集成多传感器,进行多传感器的融合任务。但是显而易见的是不同的传感器之间具有不同的特征,目前的很多SLAM研究人员都转向了研究多传感器SLAM中的传感器校准(例如自校准或者快速标定等内容),状态估计和后端BA优化。 2、 多机SLAM联合建图:目前在小范围内已有的若干SLAM系统大多都能获得比较好的效果,但是面对大规模,长时间的SLAM问题,如果只采用单机SLAM系统则获得良好的效果,此时通过分散的多机SLAM系统来解决大场景,长时间的SLAM任务将会是一个比较合适的选择,属于比较前沿的SLAM研究方向。 3、 高清晰度、信息量丰富的地图:SLAM技术作为机器人领域的一项底层基础技术,需要根据上层应用程序需要提供一张具有丰富信息的地图,其中比较具有代表性的地图形式就是拓扑地图,语义地图,以及点云地图等等;同时当SLAM系统的面对大场景,长时间的情况时,采用何种方式来存储更新地图也将是一个迫切需要解决的问题。 3、目前SLAM技术仍然面对着更强适应性、鲁棒性、可扩展性的要求。 4、适合的SLAM应用:目前SLAM技术具有广泛的应用场景,但是许多SLAM系统依然处在实验室研究阶段,缺乏合适的工程工具进行封装,需要我们继续完善SLAM的应用生态。 二. SLAM领域中的经典数据集: 1.KITTI数据集(单目视觉 ,双目视觉, velodyne, POS 轨迹)
手工注释训练数据既费力又耗时。这意味着,针对计算机视觉任务的深度网络训练通常需要大量标记的训练数据,这可能既昂贵又难以获取。为了让深度学习变得更容易获取,英伟达的研究人员引入了一个结构化域随机化(structured Domain Randomization )系统,帮助开发人员通过合成数据训练和完善他们的深度网络。
两者之间的区别在于,在两个阶段的检测器中,第一阶段使用区域提议网络来生成关注区域,第二阶段使用这些关注区域进行对象分类和边界框回归。另一方面,单级检测器使用输入图像直接学习分类概率和边界框坐标。因此,这些架构将对象检测视为简单的回归问题,因此速度更快但准确性较低。
长期以来计算机视觉一直难以从单个图像中理解对象及其特征,这一主题在机器人技术、辅助技术和 AR/VR 中都有应用。3D 对象识别问题提出了与从 2D 视觉输入中感知 3D 事物相关的新挑战。近十年来大规模数据集帮助 2D 对象识别在预测和定位 2D 图片网格上的项目方面取得了重大进展。另一方面世界是在三个维度中三维构建的。在这里目标是创建一个紧密定向的 3D 边界框,用于估计图片中每个项目的 3D 位置和范围。
来源:极市平台本文多干货,建议收藏本文整理汇总了90+深度学习各方向的开源数据集,包含了小目标检测、目标检测、工业缺陷检测、人脸识别、姿态估计、图像分割、图像识别等方向。附下载链接。 小目标检测 1. AI-TOD航空图像数据集 数据集下载地址:http://m6z.cn/5MjlYk AI-TOD 在 28,036 张航拍图像中包含 8 个类别的 700,621 个对象实例。与现有航拍图像中的目标检测数据集相比,AI-TOD 中目标的平均大小约为 12.8 像素,远小于其他数据集。 2. iSAI
高精度的实时立体匹配网络是时下研究的一个热点,它在自动驾驶、机器人导航和增强现实等领域中有着广泛的应用。虽然近年来对立体匹配网络的研究已经取得了显著的成果,但要同时兼顾实时性和高精度仍然是一个挑战。现有的高精度立体匹配网络,通常需要在较高的分辨率建立代价空间。比如,GANet在1/3分辨率建立代价空间,PSMNet在1/4分辨率,但这会影响网络的效率(GANet处理一对1242×375的图像,需要1.8s,PSMNet需要0.41s)。
文章:CT-ICP: Real-time Elastic LiDAR Odometry with Loop Closure
近日,L4级自动驾驶解决方案提供商元戎启行的一篇关于3D物体检测的论文被CVPR2020收录,论文题为“HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection”。
领取专属 10元无门槛券
手把手带您无忧上云