作者 | Han-Kai Hsu、Chun-Han Yao、Yi-Hsuan Tsai、Wei-Chih Hung、Hung-Yu Tseng、Maneesh Singh、Ming-Hsuan Yang
近日,斯坦福大学李飞飞组的研究者提出了 Auto-DeepLab,其在图像语义分割问题上超越了很多业内最佳模型,甚至可以在未经过预训练的情况下达到预训练模型的表现。Auto-DeepLab 开发出与分层架构搜索空间完全匹配的离散架构的连续松弛,显著提高架构搜索的效率,降低算力需求。
作者:Jun Fu、Jing Liu、Haijie Tian、Zhiwei Fang、Hanqing Lu
在发布会上,百度ApolloScape发布了自动驾驶开放数据集,开放了比Cityscapes等同类数据集大10倍以上的数据量。 3月9日,百度Apollo自动驾驶开放平台正式加入加州大学伯克利DeepDrive深度学习自动驾驶产业联盟(Berkeley DeepDrive),并发布了Apollo数据以及前沿技术品牌Apollo Scape,正式开放了Apollo Scape大规模自动驾驶数据集。 加州大学伯克利DeepDrive深度学习自动驾驶产业联盟是由加州大学伯克利分校领导的,研究应用于汽车领域的计算机
AI 科技评论按:本文作者陈泰红,邮箱 ahong007@yeah.net,他为 AI 科技评论撰写了 Google 利用神经网络搜索实现语义分割的独家解读。
今天特意带来压箱底的教程,教大家5行代码实现街景图片的语义分割,并计算绿视率与天空率!
选自arXiv 作者:Anurag Arnab等 机器之心编译 参与:张倩、路雪 牛津大学&Emotech 实验室合作的一篇论文首次严谨评估了义分割模型对对抗攻击的鲁棒性。该研究分析了不同网络架构、模型容量和多尺度处理的影响,展示了分类任务上的很多观测结果未必会迁移到更复杂的任务上,并展示了哪种分割模型目前更适合安全性应用。 1 引言 计算机视觉已经发展到,用于大部分识别任务的深度神经网络(DNN)模型成为广泛可用的商品。但是,尽管 DNN 的绝对性能得分非常高,但是它们对于对抗样本依然非常脆弱 [11]。
提起ICNET,就不得不说说ICNET构建的初衷-解决图像语义分割在实时应用中的挑战。图像语义分割(semantic segmentation)是结合了图像分类和对象检测,对图像中的每个像素实现细粒度的分类,就像下面的图中看到的那样,可以对封闭形状区域进行类别标记!得益于深度学习技术的爆发式发展,图像语义分割也进入高速的发展阶段。
值得注意的是,所提出的该方法在Cityscapes测试数据集上实现了51.8%的“mIoU”,展示了其在驾驶场景数据集上的强大WSSS Baseline 的潜力。在CamVid和WildDash2上的实验结果表明,作者的方法在各种数据集上具有有效性,即使数据集较小或具有视觉挑战性条件。 代码:https://github.com/k0u-id/CARB
虽然深度神经网络在计算机视觉领域的有效性已经是毋容置疑的了,但是大部分神经网络仍然受限于计算量、存储空间、运算速度等因素,无法应用于实际的计算机视觉任务。
我们整合了模块和继承设计到我们的配置里,这便于做很多实验。如果您想查看配置文件,您可以运行 python tools/print_config.py /PATH/TO/CONFIG 去查看完整的配置文件。您还可以传递参数 --cfg-options xxx.yyy=zzz 去查看更新的配置。
在 5 个月时间里(5月-9月),创新工场旗下人工智能企业创新奇智连续在世界顶级人脸检测竞赛 WIDER FACE、物体检测竞赛 PASCAL VOC、图像分割竞赛 Cityscapes 中取得三冠的佳绩,体现了创新奇智人工智能算法能力,尤其是在计算机视觉领域中算法的创新和设计能力。
对于许多无人驾驶或者 SLAM 初学者来说,搞一个真车或者选择一款良好的设备来进行算法测试通常是个很头大的问题,且还需要解决很多诸如传感器之间标定不好,多传感器时间未做同步,没有真正的 groundtruth 来检验算法的好坏等等问题。
选自arXiv 作者:Peilun Li、Xiaodan Liang、Daoyuan Jia、Eric P. Xing 机器之心编译 通过人工方式来标注真实世界数据是一件费时又费力的事。在自动驾驶训练数据的获取上,颇具真实感的视频游戏获取能够提供帮助。但视频游戏的渲染效果往往和真实世界的情况有所差异,Petuum 和 CMU 近日发布的一项研究论文试图解决这一问题;他们提出的一种「形义」(相对于自然语言处理中的「语义」)感知型 Grad-GAN 可以在虚拟到真实的城市场景生成上达到相当逼真和精细的结果。相关
最近用于对象检测的深度学习方法依赖于大量的边界框注释。收集这些注释既费力又昂贵,但当对来自不同分布的图像进行测试时,监督模型并不能很好地推广。领域自适应通过使现有标签适应目标测试数据来提供解决方案。然而,领域之间的巨大差距可能会使适应成为一项具有挑战性的任务,从而导致不稳定的训练过程和次优结果。在本文中,我们建议用一个中间域来弥合领域差距,并逐步解决更容易的适应子任务。该中间域是通过平移源图像以模仿目标域中的图像来构建的。为了解决领域转移问题,我们采用对抗性学习来在特征级别对齐分布。此外,应用加权任务损失来处理中间域中的不平衡图像质量。 实验结果表明,我们的方法在目标域上的性能优于最先进的方法。
随着深度学习的发展,研究者们希望深度学习模型不但可以从特定领域训练集中学习监督知识,更希望能够进行领域自适应(domain adaptation)和知识迁移技术(knowledge transfer techniques),将在一个领域数据集中学习的知识迁移到新的领域中。那么能否同时利用多个不同领域的训练样本,提高在新领域上的语义理解能力呢?
论文名称:nuScenes: Amultimodal dataset for autonomous driving
近年来,大量手工设计和基于搜索的网络被用于语义分割。然而,以前的工作(如FCN、U-Net和DeepLab系列)希望在预定义的静态网络结构中处理不同规模的输入。在本文中,作者研究了一种缓解语义表示中尺度差异的新方法——动态路由(dynamic routing) ,该方法根据图像的尺度分布,来生成与数据相关的路由。
目前自动驾驶的核心技术是LiDAR(激光雷达),一种运用雷达原理,采用光和激光作为主要传感器的汽车视觉系统。LiDAR传感器赋予了自动驾驶汽车能够看到周边环境的“双眼”,激光雷达技术越先进,视觉感知的精准程度越高,这是自动驾驶得以实现的底层技术基础。
KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像(stereo),光流(optical flow),视觉测距(visual odometry),3D物体检测(object detection)和3D跟踪(tracking)、语义分割等计算机视觉技术在车载环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,还有各种程度的遮挡与截断。整个数据集由389对立体图像和光流图,39.2 km视觉测距序列以及超过200k 3D标注物体的图像组成。
#2020开年第一篇,谁能预料新年伊始的世界如此脆弱,中国疫情肆虐,美伊箭拔弩张,英国愤懑脱欧,儿时的偶像科比和女儿也不幸离世,生命之渺小,生活之曲折,兄弟们,要充满阳光地活着啊,人间,值得。:-)今天还是鄙人生日,愿世间多点爱,与和平。
基于深度学习的语义分割方法效果出众,但需要大量的人工标注进行监督训练。不同于图像分类等任务,语义分割需要像素级别的人工标注,费时费力,无法大规模实施。借助于计算机虚拟图像技术,如3D游戏,用户可以几乎无成本地获得无限量自动标注数据。然而虚拟图像和现实图像间存在严重的视觉差异(域偏移),如纹理、光照、视角差异等等,这些差异导致在虚拟图像上训练出的深度模型往往在真实图像数据集上的分割精度很低。
本文介绍了ApolloScape Scene Parsing数据集,包括该数据集的背景、数据集的组织结构以及如何使用Python代码来处理和分析该数据集。
在机器学习带来的所有颠覆性技术中,计算机视觉领域吸引了业内人士和学术界最大的关注。
机器之心专栏 机器之心编辑部 实例分割(Instance Segmentation)任务有着广阔的应用和发展前景。来自腾讯 PCG 应用研究中心 (ARC)和华中科技大学的研究者们通过充分挖掘并利用Query在端到端实例分割任务中与实例存在一一对应的特性,提出基于Query的实例分割新方法,在速度和精度上均超过现有算法。 在今年的计算机视觉顶级会议 ICCV 2021 上,腾讯 PCG 应用研究中心(ARC)与华中科技大学电信学院人工智能研究所联合提出业内领先的端到端实例分割算法 QueryInst。实
自动驾驶是现在非常活跃的领域,几乎所有的车厂,大型互联网公司都参与其中,其中计算机视觉技术的应用也非常广泛,这篇文章将对自动驾驶中的重要数据集做简单介绍。
恶劣的天气条件,如雾霾和雨水,会破坏捕获图像的质量,导致训练在干净图像上的检测网络在这些图像上表现不佳。为了解决这一问题,我们提出了一种无监督的基于先验的领域对抗目标检测框架,使检测器适应于雾蒙蒙和多雨的条件。基于这些因素,我们利用利用图像形成原理获得的特定天气的先验知识来定义一个新的先验-对抗性损失。用于训练适应过程的前对抗性损失旨在减少特征中与天气相关的信息,从而减轻天气对检测性能的影响。此外,我们在目标检测管道中引入了一组残差特征恢复块来消除特征空间的扭曲,从而得到进一步的改进。针对不同情况(如霾、雨),在不同数据集(雾城景观、雨城景观、RTTS和UFDD)上进行的评估显示了所提方法的有效性。
而不是以前将这些学习目标分离到不同网络模块中的方法。这种统一的方法不仅减少了对细致的经验结构设计的需求,而且显著增强了多任务网络的表示学习能力,因为整个模型能力都致力于同时优化这三个目标。 TaskPrompt引入了一种基于Cityscapes-3D数据集的新的多任务基准,该基准要求多任务模型同时生成单目3D车辆检测、语义分割和单目深度估计的预测。这些任务对于实现对视觉场景的2D-3D联合理解至关重要,特别是在自动驾驶系统的开发中。 在这个具有挑战性的基准上,与单任务最先进的方法相比,本文的多任务模型表现出了强大的性能,并在具有挑战性3D检测和深度估计任务上建立了新的最先进的结果。
为了使用 City Scapes 数据集,您需要在他们的网站 (https://www.cityscapes-dataset.com/) 上创建一个帐户,然后登录才能下载数据。这使得很难直接在您的服务器上下载数据,本文提供一种脚本方式下载数据,脚本。
Mask Transfiner for High-Quality Instance Segmentation
Berkeley发布了最大,最多样化的驾驶视频数据集,其中包含丰富的BDD100K注释。您现在可以访问bdd-data.berkeley.edu上的数据进行研究。研究者最近发布了arXiv报告。现在仍然有机会参加CVPR 2018挑战。
不受图像失真或天气条件影响的目标检测能力,对于自主驾驶等深度学习的实际应用至关重要。我们在这里提供了一个易于使用的基准来评估当图像质量下降时目标检测模型的性能。由此产生的三个基准数据集(称为Pascal-C、co- c和cityscaps - c)包含各种各样的图像损坏。我们证明了一系列标准的目标检测模型在损坏的图像上存在严重的性能损失(下降到原始性能的30-60%)。然而,一个简单的数据增强技巧——对训练图像进行风格化——可以显著提高破坏类型、严重性和数据集的健壮性。我们展望我们的全面基准,以跟踪未来的进展,建立健全的目标检测模型。
刚刚推出 1.3 正式版的 PyTorch 风头正劲,人们已经围绕这一深度学习框架开发出了越来越多的工具。最近,一个名为 TorchCV 的计算机视觉模型框架站上了 GitHub 趋势榜。
论文链接:https://arxiv.org/pdf/1910.03892.pdf
选自BAIR Blog 作者:Fisher Yu 机器之心编译 参与:张倩、路雪 近日,UC Berkeley 发布了迄今为止规模最大、最多样化的开放驾驶视频数据集——BDD100K。该数据集共包含
机器之心专栏 机器之心编辑部 一篇由北京航空航天大学、科大讯飞研究院共同完成的研究入选 CVPR 2022。 跨域检测任务有很多亟待解决的问题,也一直是学术界研究的焦点。目前的跨域检测方法主要研究外部环境引起的域间偏移,这种偏移通常是可以被肉眼感知的,例如晴天和雾天下的城市(著名的Cityscapes跨域数据集)。然而,在真实场景下,例如医学影像、X光安检场景等,还存在着另一种形式的域间偏移——内生偏移,这种偏移是由于内部因素引起的,例如成像原理、硬件参数、机器老化程度等,这种偏移通常很难被肉眼觉察。内生偏
【新智元导读】 以语音起家的科大讯飞 2017年在计算机视觉上发力,接连获得自动驾驶领域权威评测集 Cityscapes 第一名和医学影像权威评测LUNA冠军两项突破,在视觉上展示出强大实力。 近日,科大讯飞在国际自动驾驶领域权威评测集 Cityscapes 获得平均81.4%的精度,取得了该项评测的第一名,并刷新了世界记录。这也是今年科大讯飞继医学影像权威评测LUNA之后在计算机视觉领域获得的又一殊荣。 📷 科大讯飞名列Cityscapes榜首 Cityscapes评测数据集在2015年由奔驰
Facades数据集是一个用于图像分割任务的数据集,其中包含了建筑物外墙的图像和相应的二值分割图像。该数据集旨在帮助研究人员和开发者进行建筑物分割相关的算法研究和模型训练。
图像分割作为计算机视觉的三大任务之一,是智慧城市、工业制造、自动驾驶等领域的一项关键技术。相比图像分类和目标检测任务,图像分割预测输出目标在像素级别的精细信息,在计算机视觉任务中具有不可替代的作用。
http://openaccess.thecvf.com/content_CVPR_2020/papers/Kim_Video_Panoptic_Segmentation_CVPR_2020_paper.pdf
实例分割是计算机视觉任务中一个重要的任务。传统的示例分割方法输入图像,并对图像的每个像素点进行预测,推断像素点所属的实例标签,并区分属于不同实例的像素点。然而,现有的方法可能会对光滑的像素点区分边界进行过度计算,导致本应当具有清晰、连续边界的实例边缘像素点被分错。为了解决这一问题,何恺明等提出了一种新的实例分割的方法,用来优化解决这个问题。
机器之心经授权发布 来源:图森未来 当地时间 10 月 22 日,计算机视觉国际顶级会议 ICCV 2017 公布了获奖论文。Facebook AI 研究员何恺明获得最佳论文奖,同时他也是最佳学生论文的作者之一。这篇文章是国内自动驾驶创业公司图森未来对最佳论文《Mask R-CNN》的完整复现,并将其开源到了Github 上。 对于 CV 圈的小伙伴们来说,这两天最大的新闻一定是何恺明大神在 ICCV 上拿下了双 best paper 啦!在各种社交平台上,大家纷纷表示「神就是神,非吾等凡人能比」,还有小
本库是用 TensorFlow 实现的基于 GAN 的极限图像压缩框架。该方法由 Agustsson 等人开发,该方法非常有趣,详细信息请查阅论文:
无监督域适配在各种计算机视觉任务重很关键,比如目标检测、实例分割和语义分割。目的是缓解由于域漂移导致的性能下降问题。大多数之前的方法采用对抗学习依赖源域和目标域之间的单模式分布,导致在多种场景中的结果并不理想。为此,在本文中,我们设计了一个新的空口岸注意力金字塔网络来进行无监督域适配。特别的,我们首先构建了空间金字塔表示来获得目标在不同尺度的内容信息。以任务指定的信息为引导,在每个尺度上,我们组合了密集的全局结构表示和局部纹理模式,有效的使用了空间注意力截止。采用这种方式,网络被强迫关注内容信息由区别力的地方来进行域适配。我们在各种由挑战性的数据集上进行了昂贵的实验,对目标检测、实例分割和语义分割进行了域适配,这证明了我们的方法比最佳的方法有了很大的提升。
由于为语义分割注释像素级标签非常费力,因此利用合成数据是一个很有吸引力的解决方案。然而,由于合成域与真实域之间存在域间的差异,用合成数据训练的模型很难推广到真实数据中去。在本文中,我们考虑到两个域之间的根本区别作为纹理,提出了一种适应目标域纹理的方法。首先,我们利用风格转换算法对合成图像的纹理进行多样性处理。生成图像的各种纹理防止分割模型过度拟合到一个特定的(合成)纹理。然后通过自训练对模型进行微调,得到对目标纹理的直接监督。我们的结果达到了最先进的性能,我们通过大量的实验分析了在程式化数据集上训练的模型的属性。
---- 新智元报道 编辑:Joey David 【新智元导读】近日,谷歌团队推出了一项新Transformer,可用于优化全景分割方案,还登上了CVPR 2022。 最近,谷歌AI团队受Transformer和DETR的启发提出了一种使用Mask Transformer进行全景分割的端到端解决方案。 全称是end-to-end solution for panoptic segmentation with mask transformers,主要用于生成分割MaskTransformer架构的扩
Pytorch实现了我们的高分辨率(例如2048x1024)逼真的视频到视频转换方法。
论文地址:http://openaccess.thecvf.com/content_CVPR_2020/papers/Pang_BidNet_Binocular_Image_Dehazing_Without_Explicit_Disparity_Estimation_CVPR_2020_paper.pdf
深度学习算法解决了数个难度级别逐渐上升的计算机视觉任务。在我先前的博文中,我已详细阐述了广为人知的两个任务:图像分类和目标检测。图像语义分割的难点在于将各个像素点分类到某一实例,再将各个实例(分类结果)与实体(大象,人,道路,天空等)一一对应。这任务即场景理解的一部分:深度学习模型怎样能更好地学习视觉内容的全局语境?
领取专属 10元无门槛券
手把手带您无忧上云