物体识别是计算机视觉领域中的一项基础研究,它的任务是识别出图像中有什么物体,并报告出这个物体在图像表示的场景中的位置和方向。目前物体识别方法可以归为两类:基于模型的或者基于上下文识别的方法,二维物体识别或者三维物体识别方法。对于物体识别方法的评价标准,Grimson 总结出了大多数研究者主要认可的 4 个标准:健壮性(robustness)、正确性(correctness)、效率(efficiency)和范围(scope)。
目前三维点云数据的获取方法相对快捷,同时三维点云数据的采集不受光照影响,也规避了二维图像遇到的光照、姿态等问题,因此基于点云数据的三维物体识别也引起了人们的重视。三维点云物体识别方法多是通过提取物体的特征点几何属性、形状属性、结构属性或者多种属性的组合等特征进行比对、学习,从而完成物体的识别与分类。可以分为以下四类方法:
目前三维点云数据的获取方法相对快捷,同时三维点云数据的采集不受光照影响,也规避了二维图像遇到的光照、姿态等问题,因此基于点云数据的三维物体识别也引起了人们的重视。
和人类不同,AI物体识别靠的是小的细节,而不是图像的边界,但是总是有办法来弥补这个差别的!
深度学习最早兴起于图像识别,但在短短几年时间内,深度学习推广到了机器学习的各个领域,如:图像识别、语音识别、自然语言处理、机器人等等。 计算机视觉是深度学习技术最早实现突破行成就的领域。在2012年,AlexNet赢得了图像分类比赛ILSVRC的冠军,至此深度学习开始收到广泛关注。这只是一个开始,在2013年的比赛中,前20名的算法都使用的是深度学习。在2013年后,ILSVRC大赛就只有深度学习算法参赛了。 深度学习算法在图像分类上的错误率小于4%,已经完全超越了人类标注的错误率。 图像分类 物体
如今,人工智能的热潮正在席卷各行各业,而计算力和数据、算法一同支撑着人工智能的蓬勃发展。作为人工智能的一个重要分支,深度学习以其良好的表现,越来越受到业界的广泛关注。深度学习模型包含海量的参数,需要强大的计算力进行大规模的神经网络矩阵运算;而终端和物联网设备往往更多考虑小体积和功耗的要求,以至于很难兼顾满足高性能神经网络计算力和低功耗的要求。英特尔在去年发布的针对神经网络矩阵运算优化的Movidius神经元计算棒 (NCS) 就很好的适应了这一应用领域的需求。本文将向您介绍基于 Movidius NCS 的ROS开发包的功能及其使用方法,您可以轻松地将深度学习技术引入项目,和其他ROS节点无缝连接,为您的机器人装上人工智能的利器。
melmcgowan 上周,AI 科技评论报道了 Facebook 实验室出炉的新论文《Mask R-CNN》,第一作者何恺明带领团队提出了一种名为「Mask R-CNN」的目标实例分割框架。研究显示,该框架相比传统的操作方法更佳简单灵活。 论文地址:https://arxiv.org/abs/1703.06870 如果对物体识别和分割技术有所了解的读者们,可能对这个流程并不陌生。传统的物体识别和图像语义分割技术目前集中于运用 Fast/Faster R-CNN 和全卷积网络(FCN)框架等方法,上述概
说起人工智能,孕育了卷积神经网络和深度学习算法的 ImageNet 挑战赛恐怕是世界上最著名的 AI 数据集。8 年来,在 ImageNet 数据集的训练下,人工智能对于图像识别的准确度整整提高了 10 倍,甚至超越了人类视觉本身。
如今,人工智能的热潮正在席卷各行各业,而计算力和数据、算法一同支撑着人工智能的蓬勃发展。作为人工智能的一个重要分支, 深度学习以其良好的表现,越来越受到业界的广泛关注。深度学习模型包含海量的参数,需要强大的计算力进行大规模的神经网络矩阵运算;而终端和物联网设备往往更多考虑小体积和功耗的要求,以至于很难兼顾满足高性能神经网络计算力和低功耗的要求。英特尔在去年发布的针对神经网络矩阵运算优化的Movidius神经元计算棒 (NCS) 就很好的适应了这一应用领域的需求。本文将向您介绍基于 Movidius NCS 的ROS开发包的功能及其使用方法,您可以轻松地将深度学习技术引入项目,和其他ROS节点无缝连接,为您的机器人装上人工智能的利器。
众所周知,当前是信息时代,信息的获得、加工、处理以及应用都有了飞跃发展。人们认识世界的重要知识来源就是图像信息,在很多场合,图像所传送的信息比其他形式的信息更丰富、真切和具体。人眼与大脑的协作使得人们可以获取、处理以及理解视觉信息,人类利用视觉感知外界环境信息的效率很高。事实上,据一些国外学者所做的统计,人类所获得外界信息有80%左右是来自眼睛摄取的图像。由此可见,视觉作为人类获取外界信息的主要载体,计算机要实现智能化,就必须能够处理图像信息。尤其是近年来,以图形、图像、视频等大容量为特征的图像数据处理广泛应用于医学、交通、工业自动化等领域。
今天主要和大家说的是分类检测过程中,一些稀疏和集成学习的相关知识,首先和大家说下图像目标定位与检测的方法分类。 众所周知,当前是信息时代,信息的获得、加工、处理以及应用都有了飞跃发展。人们认识世界的重要知识来源就是图像信息,在很多场合,图像所传送的信息比其他形式的信息更丰富、真切和具体。人眼与大脑的协作使得人们可以获取、处理以及理解视觉信息,人类利用视觉感知外界环境信息的效率很高。事实上,据一些国外学者所做的统计,人类所获得外界信息有80%左右是来自眼睛摄取的图像。由此可见,视觉作为人类获取外界信息的主要载
今天主要和大家说的是分类检测过程中,一些稀疏和集成学习的相关知识,首先和大家说下图像目标定位与检测的方法分类。
算法系统由几部分组成:第一,传感,并从传感器原始数据中提取有意义信息;第二,感知,以定位无人车所在位置及感知现在所处的环境;第三,决策,以便可靠、安全地抵达目的地。
原文:medium 来源:新智元 作者:Đặng Hà Thế Hiển 编译:新智元编辑部 本文长度为5000字,建议阅读8分钟 本文通过一张信息图示,讲述计算机视觉(CV)物体识别的现代史,总结CV 6 大关键技术和目标识别的重要概念。 [导读]Medium 用户 Đặng Hà Thế Hiển 制作了一张信息图示,用专业、简洁并且最有吸引力的方式——信息图示,讲述计算机视觉(CV)物体识别的现代史。不仅总结了CV 6 大关键技术和目标识别的重要概念,整个信息图示从 2012年 AlexNet 赢
AI其中一个很重要的应用就是物体识别。 今天我们来看看如何在Android上实现这个功能。
AI 科技评论报道:中国计算机学会 CCF 举办的中国计算机大会CNCC 2017已于10月26日在福州市海峡国际会展中心开幕。参加会议的人数众多,主会场座无虚席。 AI 科技评论也派出记者团全程参与大会报道。 26日上午开幕式结束后,多位特邀嘉宾进行了现场演讲,主题涵盖计算机科学发展中的新技术和应用、自然语言利净额、AI如何服务于人、人工智能在信息平台的应用等等。斯坦福大学副教授、谷歌云首席科学家、机器学习界的标杆人物之一的李飞飞进行了题目为「A Quest for Visual Intelligen
【新智元导读】 自动驾驶初创公司 Momenta 今日宣布获得B轮4600万美元投资。Momenta成立于2016年9月,致力于打造自动驾驶大脑。核心技术包括基于深度学习的环境感知、高精地图、驾驶决策。 在7月18日刚刚公布的 ImageNet 2017的物体识别项目上,Momenta团队斩获冠军。 自动驾驶初创公司 Momenta 今日宣布获得B轮4600万美元投资。该轮融资由蔚来资本领投,戴姆勒集团(梅赛德斯-奔驰母公司)、顺为资本、创新工场和九合创投跟投。2016年,Momenta获得来自蓝湖资本领投
CNN 远远不止于处理分类问题。 这篇文章中,我们会一起来看在图像实例分割领域,CNN 的发展简史:它可被如何使用,以得到惊人的结果。 在 2012 年,Alex Krizhevsky, Geoff
AI科技评论按:卷积神经网络CNN是深度学习中最典型的算法之一,它可以将图片通过一系列的卷积、非线性、池(采样)、全连接层之后得到一个输出。这篇文章中,我们会一起来看在图像实例分割领域,CNN 的发展简史:它可被如何使用,以得到惊人的结果。 CNN 远远不止于处理分类问题。 据AI科技评论了解,在 2012 年,Alex Krizhevsky, Geoff Hinton, and Ilya Sutskever 赢得 ImageNet 挑战赛堪称是 CNN 发展史上的里程碑,自那之后,CNN 就成了图像分类的
一场技术人员的狂欢又拉开帷幕。APP原理很简单,用户只需要上传一张照片,就能把自己或其他人替换为“吴彦祖”、“彭于晏”、“玛丽莲梦露”以及你想要看到的任何人。你懂的!当然,也由此诞生了一场舆论的漩涡!
文章来自网易科技(原标题:AI 到底怎么在自动驾驶领域派上用场?看这篇你就懂了) 编者按:以深度学习架构为基础的人工智能技术(如深度神经网络,DNN)早已在全球铺开,其应用范围覆盖了汽车市场、计算机视觉、自然语言处理、传感器融合、物体识别和自动驾驶等领域。眼下,自动驾驶新创公司、互联网公司和 OEM 商都在探索图形处理单元(GPU)在神经网络中的应用,推动车辆早日进入自动驾驶时代。 如今,业界最先进的高级驾驶辅助系统(ADAS)一般都建立在集成或开放平台之上。想要获得更智能更复杂的ADAS系统并迈向完全
在深度学习革命进程中,计算机视觉依托大规模数据集ImageNet,在图像分类、目标检测、图像生成等多个任务都表现出惊人的性能,甚至比人类的准确率还要高!
【新智元导读】 Medium 用户 Đặng Hà Thế Hiển 制作了一张信息图示,用专业、简洁并且最有吸引力的方式——信息图示,讲述计算机视觉(CV)物体识别的现代史。不仅总结了CV 6 大关键技术和目标识别的重要概念,整个信息图示从 2012年 AlexNet 赢得了 ILSVRC(ImageNet大规模视觉识别挑战赛)说起,总结了至今关键的 13 大模型及其概念,比如 VGGNet、ResNet、Inception 到最近的 Mask RCNN。作者特别强调,所有参考文献都精挑细选,以便读者能够
机器之心报道 参与:机器之心编辑部 2017 年 7 月 18 日,ImageNet 最后一届挑战赛成绩已经公布,多个国内院校和企业在各个比赛项目上取得了非常不错的成绩。据官网信息,在 CVPR 2017 期间也会有一场 Workshop 以纪念 ImageNet 挑战赛。当地时间 7 月 26 日,李飞飞与 Jia Deng 在 ImageNet Workshop 上做主题演讲,对 8 年的 ImageNet 挑战赛历史进行了总结,并宣布之后的 ImageNet 挑战赛将转由 Kaggle 主办。最后,感
在 CVPR 2017 的 ImageNet Workshop 中,演讲者介绍了挑战赛的结果,回顾了物体识别领域的顶尖成果。同时,也有挑战赛获胜者介绍研究成果在产业中的部署等。在李飞飞与 Deng Jia 的演讲中,两位演讲者对 8 年的 ImageNet 挑战赛进行了回顾与总结,以下是基于 PPT 对演讲内容的介绍:
OpenCV ( Open Source Computer Vision Library )是一个广泛应用于计算机视觉和图像处理领域的开源库。它提供了丰富的图像处理算法和工具,能够处理图像和视频数据,实现诸如特征提取、目标检测、图像分割等功能。本文将介绍 OpenCV 的概述和应用领域,并通过具体实例展示其强大的功能和广泛应用。
面向读者:没有或有一定机器学习经验并对 Prisma 之类的 app 背后的原理感兴趣的读者。比较有经验的读者可以直接参照科技树阅读文章末罗列的引用论文。 阅读时间:10-20 分钟 注:多图,请注意
作者:李嘉铭 Northwestern University | CS 量子位 已获授权编辑发布 面向读者:没有或有一定机器学习经验并对Prisma之类的app背后的原理感兴趣的读者。比较有经验的读者
大多数哈希表不能将相同的键映射到不同的值。 因此在现实生活中, 不会在哈希表中对基本键(1.0,0.0)和(-1.0,0.0)进行编码。
---- 点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 新智元 授权 【导读】ImageNet见证了计算机视觉发展的辉煌历程,在部分任务性能已超越人类的情况下,计算机视觉的未来又该如何发展?李飞飞最近发文指了三个方向:具身智能,视觉推理和场景理解。 在深度学习革命进程中,计算机视觉依托大规模数据集ImageNet,在图像分类、目标检测、图像生成等多个任务都表现出惊人的性能,甚至比人类的准确率还要高! 但CV为何能取得如此巨大的成就?未来将向何处发展? 最近,「华人AI女神」李飞飞在美国文理科学院
---- 新智元报道 编辑:LRS 【新智元导读】ImageNet见证了计算机视觉发展的辉煌历程,在部分任务性能已超越人类的情况下,计算机视觉的未来又该如何发展?李飞飞最近发文指了三个方向:具身智能,视觉推理和场景理解。 在深度学习革命进程中,计算机视觉依托大规模数据集ImageNet,在图像分类、目标检测、图像生成等多个任务都表现出惊人的性能,甚至比人类的准确率还要高! 但CV为何能取得如此巨大的成就?未来将向何处发展? 最近,「华人AI女神」李飞飞在美国文理科学院的会刊 Dædalus 上发表
作者 | 李嘉铭 面向读者:没有或有一定机器学习经验并对Prisma之类的app背后的原理感兴趣的读者。比较有经验的读者可以直接参照科技树阅读文章末罗列的引用论文。 阅读时间:10-20分钟 注:多图,请注意流量。 图像风格迁移科技树 序:什么是图像风格迁移? 先上一组图吧。以下每一张图都是一种不同的艺术风格。作为非艺术专业的人,我就不扯艺术风格是什么了,每个人都有每个人的见解,有些东西大概艺术界也没明确的定义。如何要把一个图像的风格变成另一种风格更是难以定义的问题。对于程序员,特别是对于机器学习方
1. 图像识别与定位 图像的相关任务可以分成以下两大类和四小类: 图像识别,图像识别+定位,物体检测,图像分割。 图像的定位就是指在这个图片中不但识别出有只猫,还把猫在图片中的位置给精确地抠出来
【新智元导读】让“机器像人”可谓人工智能终极目标。但最近有研究发现,使用深度神经网络识别图像的结果与人眼识别相似——在出错的地方相似。这实在令人哭笑不得:机器识别图像“像人”但又太过“像人”,把错误也
众所周知,深度学习算法已经占领很多计算机视觉任务的制高点,在图像识别等任务上的精度已然超过了人类的平均水平。然而,绝大多数深度学习算法只有在高质量的图像上才能取得高性能。实际图像采集过程中,存在各种降质因素,导致图像质量和视觉效果下降,深度学习算法的性能也随之降低。
AI 研习社按:本文作者qqfly,上海交通大学机器人所博士生,本科毕业于清华大学机械工程系,主要研究方向机器视觉与运动规划,会写一些好玩的内容在微信公众号:Nao(ID:qRobotics)。本文整理自知乎回答:有没有将深度学习融入机器人领域的尝试?有哪些难点? 现在深度学习这么火,大家都会想着看看能不能用到自己的研究领域里。所以,将深度学习融入到机器人领域的尝试也是有的。我就自己了解的两个方面(视觉与规划)来简单介绍一下吧。 █ 物体识别 这个其实是最容易想到的方向了,比较DL就是因为图像识别上的成果而
剑桥大学的神经科学研究人员将计算机视觉与语义相结合,开发出一种新模型,有助于更好地理解大脑中物体的处理方式。
标题:3D Object Detection Method Based on YOLO and K-Means for Image and Point Clouds
AI科技评论按:9 月 26 日,机器人领域的顶级学术会议 IROS 2017 进入第二日。上午,著名华人计算机视觉专家、斯坦福副教授李飞飞,在温哥华会议中心面向全体与会专家学者作了长达一小时的专题报告。 在昨天发布的上篇 李飞飞:为什么计算机视觉对机器人如此重要? | IROS 2017中,李飞飞介绍了视觉对生物的重要性,以及计算机视觉在物体识别任务中的飞速发展。在下篇中,李飞飞继续与大家讨论了计算机视觉的下一步目标:丰富场景理解,以及计算机视觉与语言结合和任务驱动的计算机视觉的进展和前景。场景理解和与语
作为深度学习祖师,Geoffrey Hinton 的每一句每一言,都使学习者如奉纶音。浓缩其毕生所学的《Neutral Network for Machine Learning》,则是唯一一门 Hinton 老师系统讲授的公开课。 自 2012 年开课,NNML 就一跃成为深度学习开发者的殿堂级慕课。时隔五年,仍然是内容最“干”、最值得学习的深度学习课程。 如果说吴恩达的《Machine Learning》是最佳入门课程,描述 NNML 则只需两个字: “必修”——对于有志于真正掌握深度学习的人而言。 它很
相信大家已经了解到,这次“垃圾分类运动”是动真格的了。上海作为垃圾分类“新时尚”的引领者,从 7 月 1 日起,已正式实施 《上海市生活垃圾管理条例》。条例规定,个人混合投放垃圾今后可最高罚 200 元,单位混装混运,最高可罚至 5 万元,而且违规还将会列入征信,堪称“史上最严垃圾分类措施”。
选自arXiv 机器之心编译 参与:Smith 近日,来自德国 Tubingen大学和Potsdam大学的研究人员们共同发布了一项研究成果——深度神经网络和人类视觉在信号变弱时进行物体识别的差异对比。这些专家分别来自神经信息处理、综合神经学、心理学与生物控制等不同领域。此项研究旨在对DNN和人类神经系统的结构和处理过程的差别作出相应解释,并且找到在信号变弱时两种视觉系统的分类错误模式的不同。 论文:Comparing deep neural networks against humans: object r
作者简介: 吴双,原百度研究院硅谷人工智能实验室高级研究员,百度美国研发中心高级架构师。美国南加州大学物理博士,加州大学洛杉矶分校博士后,研究方向包括计算机和生物视觉,互联网广告算法,互联网文本和视频的推荐系统,语音识别和自然语言处理,曾在NIPS等国际会议中发表文章。 刘少山,PerceptIn联合创始人。加州大学欧文分校计算机博士,研究方向包括智能感知计算、系统软件、体系结构与异构计算。现在PerceptIn主要专注于SLAM技术及其在智能硬件上的实现与优化。曾在百度美国研发中心负责百度无人车系统架
做图像识别有很多不同的途径。谷歌最近发布了一个使用Tensorflow的物体识别API,让计算机视觉在各方面都更进了一步。 API概述 这个API是用COCO(文本中的常见物体)数据集训练出来的。这是
场景描述:日本一家机器人公司,通过深度学习打造的系统,结合机器人和灵活的机械臂,成功的实现了智能清扫、整理的功能,用人工智能技术打造高效居家体验。
来源:中国科学院自动化所机器视觉课题组 【导读】本文由中国科学院自动化研究所模式识别国家重点实验室胡占义研究员撰写,对计算机视觉40多年的发展历程进行了简要总结,包括:马尔计算视觉理论,主动视觉与目的视觉,多视几何与摄像机自标定,以及基于学习的视觉。在此基础上,对计算机视觉的未来发展趋势给出了一些展望。 1.1 什么是计算机视觉 正像其它学科一样,一个大量人员研究了多年的学科,却很难给出一个严格的定义,模式识别如此,目前火热的人工智能如此,计算机视觉亦如此。与计算机视觉密切相关的概念有视觉感知(visual
经过前六章的阅读,我从三个世界、数据法则、信息纽带、知识升华、自然智能以及人工智能六个方面对于信息科学技术与创新有了深层次的认识与了解。从对于三个世界的描述中,我了解到了物理、生物和数字世界的区别和联系。同时也明白了物质、能量与数据构成了人类所赖以生存和发展的客观和主观世界。通过这样的三个世界基本底层架构的认知,展开了之后的讨论,之后详细地了解到数据的作用,例如数据在生命的产生与演化中起着至关重要的作用,在生命体内DNA中的数据就记录了遗传的基本信息,大脑中的储存数据量与神经元细胞和它们的数量存在着正相关的关系。 数据之间的快速传导使各网络之间可以不考虑地理上的联系而重新组合在一起。信息的传递和交换也变得日益频繁。而在之后对于信息的定义及作用介绍之中,通过对于信息法则的介绍以及对于信息编码过程的展示,让我明白了信息的结构、含义与效用。信息的提取与升华成为知识,我对知识的描述性与程序性、显性与隐性、公共性与私密性有了进一步的认识。由知识的不断进化集合的过程中,自然智能也逐渐彰显出其作用,自然智能也拥有其法则。无独有偶,针对于自然智能的研究也不断启发着人工智能的发展。上一章重点讲述了人工智能的历史、概念、算法以及人工智能的面临障碍。使我对于人工智能的理解有了很大提升。本章就人工智能的应用技术进行了更深层次的分析与讲解。同时本章讨论的课题如下:
本周,全球的计算机视觉专家们即将齐聚威尼斯参加 ICCV (International Conference on Computer Vision)2017,展示计算机视觉和相关领域的最新研究进展。ICCV由IEEE主办,与计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV)并称计算机视觉方向的三大顶级会议。CVPR每年召开一次,而ECCV和ICCV在世界范围内每年间隔召开。ICCV论文录用率很低,也符合它顶级会议的地位。 今年ICCV中,Facebook有15篇论文被收录,同时Faceboo
机器之心发布 优必选科技 近日,由优必选悉尼 AI 研究院和浙江大学网络与媒体实验室组成的 DL-61-86 队伍参加 TRECVID 2017 和大规模电影描述与理解挑战 Large Scale Movie Description and Understanding Challenge (LSMDC 2017)的多项任务,并获得了 TRECVID 2017 VTT matching and ranking 任务的第一名,以及 LSMDC 2017 两个任务的第二名。 TRECVID 2017
(文/Lukas Biewald)物体识别是当前机器学习最热门的方向。计算机早已能够识别如人脸、猫之类的物体,但识别更大范围里的任意物体对人工智能来说仍是难题。也许真正让人惊奇的是人脑在识别物体上表现得如此之好。我们能够毫不费力地将反射频率只有细微不同的光子转换为有关周围世界的十分丰富的信息。机器学习仍在与这些对人类来说十分简单的任务作着苦斗,但在过去几年里已经有了很大进步。 深度学习以及大型公共训练数据集 ImageNet 让物体识别有了令人瞩目的进步。TensorFlow是一个著名的深度学习系统,它能非
领取专属 10元无门槛券
手把手带您无忧上云