之前在专栏的第一篇文章中介绍了一下关于层模型(layered model)的工作,并给自己挖了几个坑。今天让我来填其中一个坑:视频中的物体低延迟检测。由于这一系列工作目前贡献了一篇cvpr17和一篇iccv19共两篇论文,我将分上下两篇文章分别介绍,希望可以把工作的背景、思路、坑、相关思考和一些不在论文发表内容中的故事说明白。还是和上一篇一样,希望写出来的的不是机械的公式或者吹得天花乱坠神乎其神的PR,而是一些原理性的东西以及背后思考的过程。
开发实时3D声纳技术和海底智能的公司Coda Octopus发布了一种新产品,该产品使用AI自动检测和识别不同的水下物体。
李林 假装发自 威尼斯 量子位 出品 | 公众号 QbitAI 又一次!中国团队拿下一项AI赛事的多个大奖! 8天的计算机视觉顶会ICCV 2017在威尼斯悄然落幕,期间中国团队在物体检测、人体关键点检测等竞争激烈的比赛中击败了谷歌、微软、Facebook等国际巨头AI实验室。 ICCV 2017 “Joint COCO and Places Recognition Challenge” Workshop中,一共公布了7项竞赛的结果。 中国AI创业公司旷视科技(Face++)在MS COCO物体检测、人体关
光流的概念是Gibson在1950年首先提出来的。它是空间运动物体在观察成像平面上的像素运动的瞬时速度,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。一般而言,光流是由于场景中前景目标本身的移动、相机的运动,或者两者的共同运动所产生的。其计算方法可以分为三类:
在自动驾驶领域,基于激光雷达 (LiDAR) 的3D物体检测和运动行为预测是一种普遍的方案。目前绝大部分关于激光雷达的物体检测算法都是基于单帧的。激光雷达的多帧时序数据,提供了对于检测物体的多视角观测 (multiple views),历史记忆 (history memory),安全冗余 (redundant safty),以及运动特征 (motion kinematics) 等丰富的信息;可用来帮助提高检测速度和精度,并且增加检测结果的可靠性。对于感知的下游模块,例如追踪和预测,时序信息则更为重要。
文章:Multi-level Map Construction for Dynamic Scenes
摘 要 在过去的三年中,Pinterest 已经针对几款视觉搜索和推荐服务做出了相关的实验,其中就包括 Related Pins (2014)、Similar Looks (2015)、Flashlight (2016)以及 Lens (2017)。本论文旨在对上述几款服务背后的视觉发现引擎做出简要的概述,同时对技术决策和产品决策背后的理论做出分析, 如物体检测和交互式用户界面的使用。最终我们得出以下结论:视觉发现引擎极大地提升了搜索和推荐任务的互动性。 关键词: 视觉搜索、推荐系统、卷积特征、物体检测 介
夏乙 编译整理 量子位 出品 | 公众号 QbitAI “等代码吧。” 从Mask R-CNN论文亮相至今的10个月里,关于它的讨论几乎都会以这句话收尾。 现在,官方版开源代码终于来了。同时发布的,
近年来,在平安城市、雪亮工程、智安小区等政策的扶持下,视频监控逐渐成为市场的新增长点。而云计算、大数据、智能AI等技术,也为视频监控领域的技术提升、智能化改革提供了强大的支持。
作者:Basile Van Hoorick, Pavel Tokmakov, Simon Stent, Jie Li, Carl Vondrick
装有摄像头的无人机具有捕获空中图像(鸟瞰图)的优势。由于空中图像数据的可用性和目标检测算法的新进展,使得计算机视觉界将注意力集中到航摄图像上的目标检测任务。但是在现有的带有目标标注的可视化的空中数据集中,无人机仅仅被用作飞行摄像机,丢弃了关于飞行的相关数据类型(例如,时间、位置、内部传感器)。在本文中,提出了一个多用途空中数据集(AU-AIR),它具有多模态传感器数据,即视觉、时间、位置、海拔、IMU、速度等,这些数据采集于真实的外环境中。AU-AIR数据集包含原始数据,可用于从录制的RGB视频中提取帧。此外,在目标检测任务的背景下,我们强调了自然图像和航摄图像之间的差异。我们在AU-AIR数据集上对可移动物体探测器(包括YOLOv3-Tiny和MobileNetv2-SSDLite)进行训练和测试,使其用于无人机的机载计算机进行实时物体检测。由于本文的数据集记录的数据类型具有多样性,有助于填补计算机视觉和机器人学之间的差距。
中国科学院大学联合厦门大学和深圳鹏城实验室,提出一种自由锚框匹配的单阶段(One-stage)物体检测方法FreeAnchor。
文章:Optical Flow Based Motion Detection for Autonomous Driving
AI 科技评论按:NIPS 2018 的录用论文近期已经陆续揭开面纱,强化学习毫不意外地仍然是其中一大热门的研究领域。来自加州大学伯克利分校人工智能实验室(BAIR)的研究人员分享了他们获得了 NIPS 2018 spotlight 的研究成果:Visual Reinforcement Learning with Imagined Goals。他们提出了一种只需要图片即可进行视觉监督的强化学习方法,使得机器人能够自主设定目标,并学习达到该目标。下面是 AI 科技评论对该博客的部分编译。
作者:breezecheng、morajiang、lyleleeli,腾讯 WXG 应用研究员 微信识图已经在微信的扫一扫识物,微信聊天/朋友圈/公众号长按图片搜一搜等场景上线,并且从最初的电商类目(鞋子、箱包、美妆、服装、家电、玩具、图书、食品、珠宝、家具等),扩展到更加丰富的万物场景,囊括了植物、动物、汽车、红酒、地标、菜品、名画、商标、作业以及其他通用场景。在算法架构上,微信识图主要由三大核心步骤组成,即为主体检测+子类目预测+子类目细粒度同款检索,开发一个高性能的检测器对于前两个步骤至关重要
【初识明瞳 视图上云】直播第二期【视图场景的存储优化之路】已经圆满结束啦。 本次分享属于【初识明瞳 视图上云】直播第2期,【视图场景的存储优化之路】邀请到了腾讯云存储高级产品经理王致铭,为大家介绍明瞳智控这款产品。明瞳智控ISS是腾讯云推出的一款面向视图数据提供的云存储及 AI 多模态分析一体化产品。依托腾讯云遍布全球的边缘节点,同时基于腾讯云领先的 AI 分析能力,可实现视图数据快速上云,视图数据云存储、视图数据安全、AI 智能分析等多种服务。 整个内容分五个部分: 一、产品背景 二、功能框架 三、覆盖场
本篇文章目的将为你详细罗列 Python OpenCV 的学习路线与重要知识点。核心分成 24 个小节点,全部掌握,OpenCV 入门阶段就顺利通过了。
光流的概念是Gibson在1950年首先提出来的。它是空间运动物体在观察成像平面上的像素运动的瞬时速度,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。一般而言,光流是由于场景中前景目标本身的移动、相机的运动,或者两者的共同运动所产生的。
无人机在工业、农业、军事及消费级市场均有如土地测绘、巡检监测、物资配送、灾后救援等重要作用。其中,实现高精度且高能效物体检测是开展所有无人机任务的基本要素,也是本领域急需提高的方向。由于航拍数据集(无人机视角)的缺失,进一步提升无人机物体检测系统变得更加困难。
文章:OA-SLAM: Leveraging Objects for Camera Relocalization in Visual SLAM
2019年IEEE计算机视觉与模式识别大会(CVPR)于今年6月16日至20日举行。CVPR是计算机视觉领域世界三大学术会议之一(与ICCV和ECCV并列)。今年共收到1300篇论文,录取率达到创纪录的5165篇(25.2%)。
我从CVPR中选取已被录用的论文进行分析,了解研究的主要领域和论文题目中的常见关键词。这可以提供研究进展的一个迹象。
摘要:本文融合了Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite和Vision meets Robotics:
这个现实世界造成了很多挑战,比如数据有限、只有微型的计算机硬件(像手机、树莓派)所造成的无法运行复杂深度学习模型等。这篇文章演示了如何使用树莓派来进行目标检测。就像路上行驶的汽车,冰箱里的橘子,文件上的签名和太空中的特斯拉。
论文:Instantaneous Perception of Moving Objects in 3D
1、3D Object Detection for Autonomous Driving: A Survey 自动驾驶被认为是保护人类免遭严重车祸的最有前途的方法之一。 为此,三维目标检测是感知系统的核心基础,特别是在路径规划、运动预测、避碰等方面。 一般来说,立体或单目图像中相应的三维点云已经是三维目标检测的标准布局,随着提供准确的深度信息,点云越来越普遍。 尽管已有的努力,点云上的3D目标检测仍然处于起步阶段,原因是点云本质上高度稀疏和不规则,相机视图和激光雷达鸟瞰图之间的不对齐视图的模态协同,遮挡和规模变化在长距离等。 近年来,在三维目标检测方面取得了深刻的进展,有大量的文献正在研究这一视觉任务。 因此,我们将全面回顾该领域的最新进展,涵盖所有主要主题,包括传感器、基本原理和最新的最先进的检测方法及其优缺点。此外,我们将介绍度量并提供流行公共数据集的定量比较。 未来工作的途径将在对调查工作进行深入分析后审慎地确定。 最后,对本文进行了总结。 2、One Million Scenes for Autonomous Driving: ONCE Dataset 当前的自动驾驶感知模型因严重依赖大量注释数据来覆盖不可见的案例和解决长尾问题而臭名昭著。 另一方面,从未标记的大规模收集数据中学习、逐步自我训练的强大识别模型越来越受到关注,可能成为下一代行业级强大、鲁棒的自动驾驶感知模型的解决方案。 然而,研究领域普遍存在着现实场景中必不可少的数据不足的问题,这阻碍了未来全/半/自我监督的三维感知方法的探索。 在本文中,我们介绍了用于自动驾驶场景的三维目标检测的ONCE(一百万场景)数据集。 ONCE数据集包括100万个激光雷达场景和700万个相应的相机图像。 数据来自144个驾驶小时,比现有最大的3D自动驾驶数据集(如nuScenes和Waymo)长20倍,数据来自不同的地区、时间段和天气条件。 为了便于未来利用无标记数据进行3D检测的研究,我们另外提供了一个基准,在此基准上我们在ONCE数据集上再现和评估各种自我监督和半监督方法。 我们对这些方法进行了广泛的分析,并提供了与使用数据规模相关的有价值的观察结果。 3、SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous Driving 为了促进一个真实的、不断发展和可扩展的自动驾驶系统,我们提出了一个大规模的基准,通过学习原始数据,对不同的自我监督和半监督方法进行标准化评估,这是迄今为止第一个也是最大的基准。 现有的自动驾驶系统严重依赖“完美的”视觉感知模型(如检测),这些模型使用大量标注数据进行训练,以确保安全。 然而,在部署一个强大的自动驾驶系统时,要对所有场景和环境(例如夜晚、极端天气、城市)都精心标注是不现实的。 基于自监督和半监督学习的强大发展,通过协同开发大规模无标记数据和少量标记数据学习鲁棒检测模型是一个很有前途的方向。 现有的数据集(如KITTI、Waymo)要么只提供少量的数据,要么覆盖了有限的领域,并进行了完整的注释,阻碍了对大规模预训练模型的探索。 在这里,我们发布了一个用于自动驾驶的大规模目标检测基准,名为SODA10M,包含1000万张未标记图像和20K张标记了6个代表性目标类别的图像。 为了提高多样性,图像每10秒采集一次,在32个不同的城市中,在不同的天气条件下,时间段和场景。 我们提供了广泛的实验和深入的分析现有的监督的最先进的检测模型,流行的自我监督和半监督方法,以及一些关于如何开发未来的模型的见解。 4、MODETR: Moving Object Detection with Transformers 运动目标检测(MOD)是自动驾驶系统的一项重要任务。 MOD通常通过融合了外观和运动线索的双流卷积结构处理,而没有考虑空间或运动特征之间的相互关系。 在本文中,我们通过跨越空间流和运动流的多头注意机制来解决这个问题。 我们建议MODETR; 一个运动物体检测Transformer网络,包括空间和运动形态的多流变压器编码器,和一个物体变压器解码器,使用集合预测产生运动物体的边界盒。 整个体系结构使用双向损耗进行端到端训练。 本文探讨了将运动线索与Transformer模型结合的几种方法,包括双流RGB和光流方法,以及利用序列信息的多流体系结构。 为了整合时间信息,我们提出了一种新的时间位置编码(TPE)方法来扩展空间位置编码(SPE)。 我们将为此探索两种架构选择,即在速度和时间之间实现平衡。 为了评估我们的网络,我们在KITTI MOD[6]数据集上执行MOD任务。 结果表明,显著的5%地图的Transformer网络MOD超过了最先进的方法。 此外,提出的TPE编码比SPE基线提供了10%的mAP改进。 5、Multi-Modal 3D O
在运动目标检测提取中,背景目标对于目标的识别和跟踪至关重要。而建模正是背景目标提取的一个重要环节。
该定义听起来很直接,但在计算机视觉和机器学习中,跟踪是一个非常广泛的术语,涵盖概念上相似但技术上不同的想法。例如,通常在对象跟踪下研究以下所有不同但相关的想法
其实很多的时候都是英文标注的,但是我相信国内的AI领域的博主多了之后就会出现纯中文的备注方案。
【新智元导读】在谷歌研究院工作是一种怎样的体验?新智元近日专访了谷歌研究员朱梦龙,他作为谷歌团队G-RMI的核心成员,从去年9月开始一直盘踞在COCO的物体检测榜首。此外,他作为团队核心成员发布的最新研究MobileNet,通过分解降维卷积层,以及早期采用stride 2等,把计算量压缩至VGG的1/30,让终端模型的图像检测达到VGG的效果。谈到在谷歌研究院的体验,他认为就像在读PhD,跟一群天才(包括曾经在谷歌的贾扬清)一起讨论有趣的想法,以及做有意思的项目;不同的是,这些项目还能在现实中被广泛应用。
Extended VINS-Mono: 一个在大规模户外环境中进行绝对和相对车辆定位的系统性方法
大数据文摘作品,转载要求见文末 主讲人 | Joseph Redmon 翻轴 | 海抒,Lisa,弋心 校对 | 陈啸明 后期 | DJ You only live once? 不,You only
作为国内CV领域的明星公司,商汤科技及联合实验室共有62篇论文被接收,其中口头报告(Oral)论文18篇,相比2018 CVPR共44篇论文入选,增幅超40%。
据最新消息,受暴雨影响,河北地铁全线网车站停运,纯电公交停运,机场取消、延误航班超200架次,途径的多个高速路段全线禁止所有车辆上站。在人工智能时代,我们需要通过AI来检测洪水或泳池内溺水的人,及时做到拯救工作。
近年来,机器视觉技术变得越来越复杂,工业领域的图像处理更多的专注于3D传感器,而且越来越多的技术已经完善并且投入到实际应用中,包括焊缝的检测,以及在生产过程中对未分类部件进行仓拣或精确测量金属板。可以说,机器视觉已经转向了3D。
本文以日本无人驾驶开源软件Autoware为参考,汇总分析了无人驾驶所涉及的基本算法,最后给出了在一些典型数据集上测试的效果。
机器之心报道 机器之心编辑部 作为首个全面介绍基于 SAM 基础模型进展的研究,本文聚焦于 SAM 在各种任务和数据类型上的应用,并讨论了其历史发展、近期进展,以及对广泛应用的深远影响。 人工智能(AI)正在向 AGI 方向发展,这是指人工智能系统能够执行广泛的任务,并可以表现出类似于人类的智能水平,狭义上的 AI 就与之形成了对比,因为专业化的 AI 旨在高效执行特定任务。可见,设计通用的基础模型迫在眉睫。基础模型在广泛的数据上训练,因而能够适应各种下游任务。最近 Meta 提出的分割一切模型(Segm
雷锋网按:本文内容来自涂图 CTO 邱彦林在硬创公开课的分享,在未改变原意的基础上进行了编辑整理。 几年前图片美颜教育了市场,到了直播时代,美颜同样成为直播平台的标配。女主播要是在直播中不能自动美颜,那只能靠更精致的妆容来补,而实时直播美颜技术恰好解决了这个问题。 目前最新的美颜技术已经发展到了 2.0 阶段,打个比方,如果美颜 1.0 只是化妆(磨皮、祛痘、肤色调整)的话,美颜 2.0 基本就能达到整容的效果——把眼睛变大,把圆脸变成瓜子脸。而实现这一效果的基础就是人脸识别。 硬创公开课特邀专攻直播美颜的
摘 要:本文针对物体检测中的环境变化多样、物体尺度变化不一、搜索空间巨大等挑战性问题,围绕特征构建、模型优化和应用等方面进行研究。针对物体检测中的多尺度特征融合问题,提出针对物体检测的神经网络特征融合方法HyperNet;进一步提出了逆向连接的特征金字塔物体检测方法,将不同尺度的物体分配不同层次的特征,该方法大大减少了多尺度物体检测的难度;提出了无需候选窗的物体检测模型FoveaBox,摒弃了传统依赖候选窗扫描的过程。本文提出的系列方法已经在检测、分割、姿态估计等方面成功得到拓展。
1、导读 When you have trouble with object detection, keep calm and use deep learning. 这句话是作者自己抖机灵的话,如果说 deep learning 已经攻陷计算机视觉这个领域的话,Object Detection可以说是受灾最严重的区域了。不管是基于region proposal的RCNN系列,还是 end-to-end 的YOLO系列,基于深度学习的方法已经完胜手工特征方法。 Object Detection 这块众多博士科
文章名称:A Survey of 6D Object Detection Based on 3D Models for Industrial Applications,J. Imaging | Free Full-Text | A Survey of 6D Object Detection Based on 3D Models for Industrial Applications (mdpi.com)
计算机视觉领域一定要做物体检测! 从研究角度来看,物体检测是计算机视觉的根本问题之一,是很多高层视觉任务(如:图像分类、行人再辨识和目标跟踪)的基础。并且,现在国内外很多研究团队在对物体检测做深入的研究,近些年物体检测论文发表数量也呈逐年递增的趋势。 从应用角度来看,物体检测已经表广泛应用在我们的日常生活中,如人脸解锁、美颜相机、视频监控、淘宝拍立淘、百度识图等。 随着研究的深入以及广泛的落地应用,很多企业在招聘中对该领域人才要求越来越多,同时对物体检测技术的要求也越来越高。 调试代码仅是实现算法的手段
多尺度训练YOLOv2;权衡速度和准确率,运行在不同大小图像上。YOLOv2测试VOC 2007 数据集:67FPS时,76.8mAP;40FPS时,78.6mAP。
这周主要是对动态情景下的slam论文以及开源代码做了下收集,之前也解读过一篇类似的文献
运动物体检查,在移动目标定位和智能安防系统中有广泛的应用,它的实现原理:捕获连续帧之间的变化情况,将每次捕获的图像进行对比,然后检查差值图像中的所有斑块(颜色相近的地方)。
本文对 CVPR 2021 检测大类中的“伪装目标检测”、“旋转目标检测”领域的论文进行了盘点,将会依次阐述每篇论文的方法思路和亮点。在极市平台回复“CVPR21检测”,即可获得打包论文 >>加入极市CV技术交流群,走在计算机视觉的最前沿
本文适合刚入门物体检测的人群学习,不涉及公式推理。 目录 *摘要 *相关物体检测数据集介绍 *现有的主流物体检测算法 *物体检测的难点与挑战 *相关术语介绍 *物体检测的传统算法概述 *基于深度学习的物体检测算法 R-CNN Fast-RCNN Faster-RCNN YOLO *物体检测动手实践 *参考文献 摘要 相比于图像分类,图像中物体检测是计算机视觉中一个更加复杂的问题,因为图像分类只需要判断出图像属于哪一类就行,而在物体检测中,图像里可能有多个物体,我们需要对所有
本文作者黄凯奇,研究员,博士生导师。获国家自然科学优秀青年基金,国家万人计划“青年拔尖人才”获得者,北京市科技新星。在智能视觉监控及行为理解方面的研究获得第十二届中国发明专利优秀奖和国家技术进步二等奖。作者任伟强,中科院自动化所博士。作者谭铁牛,中国科学院院士、英国皇家工程院外籍院士、发展中国家科学院院士和巴西科学院通讯院士。中国科学院自动化研究所研究员、博士生导师、智能感知与计算研究中心主任。
本文来谈一下基于深度学习的航空物体场景下的物体检测。航空物体这类场景一般由无人机空拍来收集数据,然后进行后处理来满足特定的任务场景,有些情况下要求实现实时反馈,甚至多任务。
领取专属 10元无门槛券
手把手带您无忧上云