首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

多标签图像识别发展历程(2015~2020)

自从深度学习兴起之后,以ImageNet数据集为代表的通用识别在精度上实现了跳跃式的显著提升,在通用识别性能逐渐“饱和”之后,研究者们将目光投向了难度更高的 细粒度图像识别 与 多标签图像识别 。其中细粒度识别主要针对类间相似度高、粒度细的问题,而多标签识别主要针对图像内多个共存标签有依赖性、输出标签范围广的问题,简单来说就是,细粒度识别是更精细的通用识别,而多标签识别是更广泛的通用识别。 从输出标签的数量来看,通用识别和细粒度识别都是单标签识别,然而在大多数场景下,图像中都不会只有一个孤零零的类别,只是我们在标注数据集时会故意忽略非图像主体的其他类别从而作为单标签识别问题来建模,但是随着对内容理解要求的不断提高,我们越来越需要尽可能精确的识别出图像视频中的所有类别,这时就需要用多标签识别出场了。 与通用识别和细粒度识别相比,多标签识别任务本身更关注当图像中存在多个物体、多个类别标签时,如何建模不同物体、不同标签的相关性与依赖关系,这个问题在论文中也经常被称为共现依赖(label co-occurrences),当然也有一些方法关注多标签识别任务的其他性质。

03
您找到你想要的搜索结果了吗?
是的
没有找到

《最强大脑》第三场《核桃计划》比赛难点及技术解析

近日,江苏卫视《最强大脑》第四季人机大战第三场已经结束。从未失算的“水哥”王昱珩,在图像识别方面与搭载百度大脑的小度机器人进行实力交锋。最终,“小度”以2:0的战绩战胜对手,并以3:1的总战绩,斩获2017年度脑王巅峰对决的晋级资格。 本场竞赛题目为 “核桃计划”:通过三段在夜幕下分别从行车记录仪、高位摄像头和女生手机中拍到的模糊动态影像中,让“小度“和水哥识别三位“嫌疑人”的特征后,从30位性别相同、身高体重年龄均相似的候选人现场拍照中,准确找出三位“嫌疑人”。 比赛虽已结束,但对于相关人工智能识别技术的

02

微软亚洲研究院:计算机看懂视频的步骤及未来努力方向

对于人类来说,看懂视频似乎是再简单不过的事情了。从出生就开始拥有视觉,人眼所看到的世界就是连贯动态的影像。视野中每一个动态的形象都被我们轻易的识别和捕捉。但这对于计算机来说就没那么容易了。对于计算机来说,画面内容的识别,动作的捕捉,都要经过复杂的计算才能得出。当计算机从视频中识别出一些关键词后,由于语义和句子结构的复杂性,还要涉及词汇的词性、时态、单复数等表达,要让计算机将单个的词汇组成通顺准确的句子也是难上加难。 那么让计算机看懂视频都要经过哪几步呢? 首先,识别视频里的内容。目前的图像识别研究大多基于C

02

学界 | 精细识别现实世界图像:李飞飞团队提出半监督适应性模型

选自 arXiv 机器之心编译 参与:李泽南 图像识别技术的发展速度很快,我们开发的机器学习模型已经可以识别越来越多的物体种类了。然而,大多数图像识别算法都非常依赖于有标签的数据集,同时对于图片中物体的精细分类能力也非常有限。近日,斯坦福大学李飞飞团队提交的论文在减少数据依赖和提高识别细粒度程度等问题上向前迈进了一步。该论文已被 ICCV 2017 大会接收。 图像识别的终极目标是识别真实世界中的所有物体。更加艰巨的任务则是精细识别——细分同一类别的物体(如不同种类的鸟、不同品牌的汽车)。目前的业内最佳细

07

【出售波士顿动力后,谷歌机器人进展】瞄准自主机器学习新方向

【新智元导读】在教会机器人理解人类行为方面,谷歌都有哪些进展?谷歌研究院的博客带来近期研究总结,他们的做的方向有三个:使用深度视觉特征理解人类行为展示、使用自监督和模仿学习模拟人体运动以及理解语义,抓握物体。 Alphabet 出售波士顿动力引发多轮轰动。不过,谷歌仍然在研究机器人。放弃波士顿动力谷歌在机器人方向上有什么进展? 机器学习可以使机器人获得复杂的技能,比如做出抓握和打开门等动作。然而,学习这些技能需要我们手动编制让机器人进行优化的奖励函数。相比之下,人能够通过观察别人的行为来理解任务的目标,或者

012

自带迷幻剂技能的小贴纸:忽悠神经网络,让它将一切都当作烤面包机!

大数据文摘作品 编译:Katrine.Ren、元元 当下的图像识别技术看似愈发成熟了,但自带蠢萌属性的它实际上依然可以被轻易愚弄。 研究人员最近就成功忽悠了一把以智能著称的算法,让它们一脸懵逼地犯下了一系列错误: 比如把两个滑雪的人辨识为一只狗,把一个棒球看成是一杯意式咖啡,又例如把一只乌龟误认为是一把步枪。 最新的一个欺骗机器的方法操作更为简单,却有更深远的影响,所需要的道具也仅仅是一张简陋的贴纸而已。 图注按顺序为:将贴纸放在桌上,输入分类器的图像,分类器输出结果 这款由谷歌的研究人员新近开发的自带迷幻

03

专访深鉴CEO姚颂:把芯片的专用和通用看作两极,那么中间任何位置都可有所作为

全球最大存储器厂商(三星)和全球最大Fintech独角兽(蚂蚁金服)的加持对这家成立不到两年的初创公司意味深长。 昨天,深鉴科技召开了成立以来的第一次新品发布会,正式宣布已完成约4000万美金的A+轮融资。本轮融资由蚂蚁金服与三星风投领投,招商局创投与华创资本跟投。深鉴科技创始人、CEO 姚颂表示,本次融资将继续用于安防、数据中心领域及后续芯片产品的开发。深鉴与三星将展开包括存储在内的多方面合作。而蚂蚁金服的战略资源注入,将帮助深鉴进一步开拓包括金融在内的更多应用场景,而关于金融领域的进一步布局,深鉴没有

02

固定参数的模型有多大潜力?港中文、上海AI Lab等提出高效视频理解框架EVL

机器之心专栏 机器之心编辑部 来自香港中文大学、上海人工智能实验室等机构的研究者提出了高效的视频理解迁移学习框架 EVL,通过固定骨干基础模型的权重,节省了训练计算量和内存消耗。 视觉基础模型近两年取得了瞩目发展。从一方面而言,基于大规模互联网数据的预训练已经给模型预置了大量的语义概念,从而具有良好的泛化性能;但另一方面,为充分利用大规模数据集带来的模型尺寸增长,使得相关模型在迁移到下游任务时面临着低效率问题,尤其是对于需要处理多帧的视频理解模型。 论文链接:https://arxiv.org/abs/2

02
领券