论文作者:Xiaojun Jia, Xingxing Wei, Xiaochun Cao, Hassan Foroosh
通知:这篇推文有13篇论文速递信息,涉及图像分割、SLAM、显著性、深度估计、车辆计数等方向 往期回顾 [计算机视觉] 入门学习资料 [计算机视觉论文速递] 2018-03-18 [计算机视觉论文速递] 2018-03-16 图像分割 [1]《Training of Convolutional Networks on Multiple Heterogeneous Datasets for Street Scene Semantic Segmentation》 Abstract:我们提出了一种具有分层分
选自Medium 作者:Alfredo Canziani等人 机器之心编译 参与:黄小天、吴攀 随着深度神经网络技术的发展,新型的网络架构也在不断涌现。普渡大学 e-Lab 的三位研究者 Alfredo Canziani、Abishek Chaurasia 和 Eugenio Culurciello 近日在 Medium 上发文阐述了一类新型的深度神经网络,其在视频分析上具有无监督学习 、分割、场景解析、定位、时空表征、视频预测、表征预测、在线学习等能力,并且还在很多方面优于当前大热的生成对抗网络(GAN)
这就是阿里达摩院提出的图像分析新方法:“频域学习”(Learning in the Frequency Domain)。
最新的好消息是,谷歌团队采用了一种GANs与基于神经网络的压缩算法相结合的图像压缩方式HiFiC,在码率高度压缩的情况下,仍能对图像高保真还原。
选自arXiv 作者:Eirikur Agustsson等 机器之心编译 参与:白妤昕、刘晓坤 本文提出了一个基于生成对抗网络的极端学习图像压缩框架,能生成码率更低但视觉效果更好的图像。此外,该框架可
说到图像压缩算法,最典型的就是 JPEG、JPEG2000 等。 图 1:典型图像压缩算法 JPEG、JPEG2000 其中 JPEG 采用的是以离散余弦转换(Discrete Cosine Tra
雷锋网 AI 研习社按,2012 年,AlexNet 横空出世,以 15.4% 的低失误率夺得当年 ILSVRC(ImageNet 大规模视觉识别挑战赛)冠军,超出亚军十多个百分点。AlexNet 开启了深度学习黄金时代,随之而来是深度学习在图像识别上的蓬勃发展:
AI科技评论按:ICLR 2017 将于4月24-26日在法国土伦举行,届时AI科技评论的编辑们也将前往法国带来一线报道。在这个深度学习会议举办之前,AI科技评论也将围绕会议议程及论文介绍展开一系列的覆盖和专题报道,敬请期待。 数据压缩是一种基础工程问题,在数据存储和有限容量信道传输中有重要的应用。图像作为一种信息载体,数据量巨大,因此研究者们对图像压缩的研究从未停止过。在ICLR 2017会议上,来自纽约大学的Johannes Balle 等研究者提出了一种端到端优化的图像压缩方法,并发表了论文:《E
随着互联网的发展,人们对高清图片的需求也在不断增加,在保证图像画质的情况下最大程度降低图像体积已成为行业发展趋势。
像神经网络这样的数据驱动算法已席卷全球。他们最近的激增是由于硬件变得更加便宜也更加强大,同时也不缺乏大量的数据的支持。神经网络目前发展到“图像识别”,“自然语言理解”等认知任务,当然也仅限于此类任务。在这篇文章中,我将讨论一种使用神经网络压缩图像的方法,以更快的速度实现图像压缩的最新技术。 本文基于“基于卷积神经网络的端到端压缩框架”(https://arxiv.org/pdf/1708.00838v1.pdf)。 你需要对神经网络有一些熟悉,包括卷积和损失函数。 什么是图像压缩 图像压缩是转换图像使其
(本文由软件工程师 Nick Johnston 和 David Minnen 发布)
论文名称:Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models
选自arXiv 作者:Naveed Akhtar等 机器之心编译 参与:许迪、刘晓坤 这篇文章首次展示了在对抗攻击领域的综合考察。本文是为了比机器视觉更广泛的社区而写的,假设了读者只有基本的深度学习和图像处理知识。不管怎样,这里也为感兴趣的读者讨论了有重要贡献的技术细节。机器之心重点摘要了第 3 节的攻击方法(12 种)和第 6 节的防御方法(15 种),详情请参考原文。 尽管深度学习在很多计算机视觉领域的任务上表现出色,Szegedy et al. [22] 第一次发现了深度神经网络在图像分类领域存在有意
BP神经网络现在来说是一种比较成熟的网络模型了,因为神经网络对于数字图像处理的先天优势,特别是在图像压缩方面更具有先天的优势,因此,我这一段时间在研究神经网络的时候同时研究了一下关于BP网络实现图像压缩的原理和过程,并且是在MATLAB上进行了仿真的实验,结果发现设计的BP神经网络具有不错的泛化能力,对于用于图像压缩方面的效果还不错. 1:BP神经网络的模型的架构和训练的原理 BP神经网络是现在目前的发展的比较成熟的神经网络之一了,也是一种比较给力的非线性的可微分函数进行权值修正和调整的多层前馈人工神经网络
BP神经网络现在来说是一种比较成熟的网络模型了,因为神经网络对于数字图像处理的先天优势,特别是在图像压缩方面更具有先天的优势,因此,我这一段时间在研究神经网络的时候同时研究了一下关于BP网络实现图像压缩的原理和过程,并且是在MATLAB上进行了仿真的实验,结果发现设计的BP神经网络具有不错的泛化能力,对于用于图像压缩方面的效果还不错.
【新智元导读】 谷歌官方博客今天发布了一篇文章,介绍如何使用神经网络压缩图片。在论文中,谷歌证明了神经网络可以获得比现在普遍使用的压缩方法质量更好、大小更小的图片,理论上会小25%。谷歌这次要解决图片占用内存过多的问题。用户可以去 TensorFlow使用该模型压缩自己的图片。 作者: Nick Johnston and David Minnen, Software Engineers 数据压缩几乎发生在互联网的任何角落,你观看的视频、分享的突破、听的音乐,甚至你现在在看的文章,都是经过压缩的。压缩技术使得
人每时每刻都在接收海量的信息,例如每秒进入视网膜的数据量就达到了10的10次方比特,但人类会选择性地关注一些任务相关或感兴趣的区域以进一步处理,比如记忆、理解和采取行动等。
选自QuantaMagazine 作者:Natalie Wolchover 机器之心编译 参与:黄小天、刘晓坤、路雪 耶路撒冷希伯来大学的计算机与神经科学家 Naftali Tishby 提出了一项名为「信息瓶颈」(Information Bottleneck)的新理论,有望最终打开深度学习的黑箱,以及解释人脑的工作原理。这一想法是指神经网络就像把信息挤进瓶颈一样,只留下与一般概念最为相关的特征,去掉大量无关的噪音数据。深度学习先驱 Geoffrey Hinton 则在发给 Tishby 的邮件中评价道:「
一个称为「信息瓶颈」的新想法有助于解释当今人工智能算法的黑箱问题——以及人类大脑的工作原理。
CHALLENGE ON LEARNED IMAGE COMPRESSION 挑战赛由 Google、Twitter、Amazon 等公司联合赞助,是第一个由计算机视觉领域的会议发起的图像压缩挑战赛,旨在将神经网络、深度学习等一些新的方式引入到图像压缩领域。据 CVPR 大会官方介绍,此次挑战赛分别从 PSNR 和主观评价两个方面去评估参赛团队的表现。
雷锋网 AI 研习社按,CVPR 2018 图像压缩挑战赛(CLIC)结果已经出炉,腾讯音视频实验室和武汉大学陈震中教授联合团队于该项挑战赛上取得压缩性能第一。(腾讯音视频实验室凭借在 CLIC 中 PSNR 指标第一在雷锋网学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中增加 10 分。)
---- 新智元报道 编辑:桃子 好困 【新智元导读】今天,ECCV 2022放榜了!今年论文总投稿数爆增到8000多篇,共有1629篇论文中选,录用率还不到20%。 今天,ECCV开奖了! 根据最新公开的论文录用列表,今年ECCV共接收了1629篇。 今年的投稿理论上至少有8170篇(最后一个中稿ID),由此预估,录用率还不到20%。 2020年ECCV共收到有效投稿5025篇,接收论文1361篇,接收率为27%。 2018年共有2439篇投稿,接收776篇,录用率为31.8%。 通过对比发现
CVPR 2018 图像压缩挑战赛结果已经出炉,腾讯音视频实验室和武汉大学陈震中教授联合团队于该项挑战赛上取得压缩性能第一。
如今「深度神经网络」已经学会对话、驾驶汽车、打视频游戏、玩围棋、绘画并辅助科研,这使其人类构建者很是困惑,并为深度学习算法的成果深感意外。这些学习系统的设计并没有一条明确的原则,除了来自大脑神经元的灵感(其实并没有人知道大脑是如何工作的),并且 DNN 早就和大脑神经元的原理相去甚远。 像大脑一样,深度神经网络也有很多层神经元。当神经元被激活时,它会发出信号,连接上面一层的神经元。在深度学习的过程中,网络中的连接会根据需要被加强或减弱,从而让网络更好地根据输入(例如一张狗的照片的像素)发送信号,信号层层向
【新智元导读】在深度学习应用突飞猛进的现在,我们比任何时候都急需理论上的突破。日前,希伯来大学计算机科学家和神经学家Naftali Tishby等人提出了一种叫做“信息瓶颈”的理论,在AI圈激发热议。信息瓶颈理论认为,深度神经网络在学习过程中像把信息从瓶颈中挤压出去一般,去除噪音输入,只保留与通用概念最相关的特征。Tishby认为这一理论不但能够解释深度学习的根本原理,还能解释人类学习过程。Hinton表示,信息瓶颈理论是近年来少有的突破,“这简直太有趣了,”Hinton写道:“我还得听上10,000次才能
在过去的十年中,已经出现了数千篇主张 AI 和 ML 有益处的文章。其中一些是现实的,而另一些则夸大了 ML 技术在大量应用中可能带来的好处。那么真正的好处在哪里,市场营销部门在哪里越过界线,变成了无稽之谈?在诸如实时(视频)处理或编码等严格条件下的应用呢?考虑到计算开销、延迟和成本限制后,能保留了多少净收益?
目前,大多数深度图像压缩方法被设计用来压缩 RGB 颜色空间的图像。然而传统的视频编码标准,则主要设计来压缩 YUV420 色彩空间的图像。在这个研究中,作者首先研究如何调整 RGB 图像的深度压缩框架,以压缩 YUV420 图像。然后研究了调整 YUV 通道的训练失真权重时对编码性能的影响,并将实验结果与 HEVC 和 VVC AI 配置进行比较。提出的方法适用于图像压缩和视频压缩的帧内编码。
在多媒体系统中,不同的终端设备需要不同分辨率大小和不同质量的图像,但大多数现有的基于神经网络的图像压缩方法必须将同一图像的不同版本单独压缩为多个比特流,从而导致低编码效率。为了解决这个问题,有一些关于可缩放图像压缩的研究,其中图像的各种版本以分层方式的编码到单个比特流中。每个层负责对图像的一个对应版本进行编解码,并且通过不同的预测方法来减少相邻层之间的冗余。
原作 Michele Covell Root 编译自 谷歌博客 量子位 出品 | 公众号 QbitAI 新的一年来了,想给自己找个难度大的挑战?有哪些问题是有重大意义,同时ML介入后会有很大的改善空间
去年 9 月,BigGAN 横空出世,被誉为「史上最强 GAN 生成器」,其逼真程度众多研究者高呼「鹅妹子嘤」!相关论文也被 ICLR 2019 接收为 Oral 论文。
1. 简介 移动视觉搜索技术是多媒体搜索领域中一个前沿的研究课题。近年来,移动设备的飞速发展,改变了互联网上图像和视频等视觉内容的产生,以及人们检索和观看的方式。移动设备的便携性和无处不在的网络接入能力使其逐渐成为主要的互联网图像和视频内容的访问和查询入口。而移动设备上丰富的传感器原件,也使得移动视觉搜索的过程更加自然、有效——用户可以直接通过拍摄图像和视频进行搜索。因此,移动视觉搜索具有巨大的市场需求和应用前景。但是,不同于传统的桌面搜索,移动视觉搜索主要面临如下挑战:1)查询图像\视频受拍摄环境干扰严重
本文对数据压缩的「前世今生」进行简要的回顾,重点分析基于深度学习的有损压缩、无损压缩方法,对基于深度学习的数据压缩进行了探讨和展望。
本文介绍了基于深度学习的图像超分辨率技术,该技术可以生成更高清晰度的图像,并可以应用于各种领域,例如视频处理、医学成像和自然语言处理等。该技术使用深度学习算法来学习图像的底层表示,并利用这些表示来生成更高质量的图像。该技术还可以使用基于注意力的方法来选择最相关的图像区域,从而进一步提高图像质量。本文还介绍了一种基于深度学习的图像超分辨率技术,该技术可以在手机端使用,并可以节省用户75%的流量。
最近,越来越多的图像被压缩并发送到后端设备进行机器视觉分析任务(例如目标检测),而不仅仅是供人类观看。然而,大多数传统的或可学习的图像编解码器都是最小化人类视觉系统的失真,而没有考虑到机器视觉系统的需求。在这项工作中,我们提出了一种用于机器视觉任务的图像压缩前处理方法。我们的框架不依赖于可学习的图像编解码器,而是可用于传统的非可微分编解码器,这意味着它与编码标准兼容,并且可以轻松部署在实际应用中。具体而言,我们在编码器之前增加一个神经网络前处理模块,用于保留对下游任务有用的语义信息并抑制无关信息以节省比特率。此外,我们的神经网络前处理模块是量化自适应的,可以在不同的压缩比下使用。更重要的是,为了联合优化前处理模块和下游机器视觉任务,我们在反向传播阶段引入了传统非可微分编解码器的代理网络。我们在几个具有不同骨干网络的代表性下游任务上进行了广泛的实验。实验结果表明,我们的方法通过节省约20%的比特率,在编码比特率和下游机器视觉任务性能之间取得了更好的权衡。
量子位 | 李林 整理编译 提到深度学习,你可能会想到认猫、认脸,或者下围棋、翻译……其实,这项技术还能用在很多你意想不到的地方。 那么,“深度学习的最新进展能带来哪些产品上的突破?” Quora上就有这样一个问题,而Google Brain的研究工程师Eric Jiang也给出一个最高赞的答案。下面就是Jiang的回答,大周末的,让我们一起来涨涨姿势: Deep Learning是指包含以下特征的一类机器学习技术: ▪ 大规模神经网络(包含百万级的自由变量); ▪ 高性能计算(上千个并行处理器); ▪ 大
在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。
互联网时代,社交媒体分享、自动驾驶、增强显示、卫星通信、高清电视或视频监控等应用场景对图片和视频有很强的需求,压缩算法也因此备受关注,但是不同的应用场景对压缩算法的性能要求也不一样,有的需求是保持高清的画质是第一位,有的需求是体积小是第一位,可以损害一些画质。
三年前,蒙特利尔大学 Ian Goodfellow 等学者提出「生成式对抗网络」(Generative Adversarial Networks,GANs)的概念,并逐渐引起 AI 业内人士的注意。自 2016 年以来,学界、业界对 GAN 的兴趣出现「井喷」。近日,谷歌开源 TFGAN 轻量级的工具库,据悉,其设计初衷是让训练和评估 GAN 变得更加简单。 AI研习社将原文编译整理如下: 训练神经网络的时候,通常需要定义一个损失函数来告诉网络它离目标还有多远。例如,图像分类网络中通常会有一个损失函数,一旦
选自arxiv 作者:Joel Emer等 机器之心编译 深度神经网络(DNN)所代表的人工智能技术被认为是这一次技术变革的基石(之一)。近日,由 IEEE Fellow Joel Emer 领导的一个团队发布了一篇题为《深度神经网络的有效处理:教程和调研(Efficient Processing of Deep Neural Networks: A Tutorial and Survey)》的综述论文,从算法、模型、硬件和架构等多个角度对深度神经网络进行了较为全面的梳理和总结。鉴于该论文的篇幅较长,机器之
腾讯18周年庆当天,腾讯人工智能实验室(AI Lab)首次发布深度网络学习视频案例——《青春无畏,冲动不止》庆生视频的艺术滤镜版本 今年风靡业界的Prisma以及天天P图的“潮爆艺术画”,能够将用户拍摄的照片变换成指定的风格。它不仅仅是一个简单的图像滤镜操作,它赋予深度神经网络学习任意艺术风格的能力,并且能够应用到任意的输入图像中,是以深度学习为代表的AI技术在艺术上的创新。 视频是未来互联网上最多的流量载体。“未来 70%、80% 的流量可能都出自视频”。 在图像风格变换引起爆发性关注之后,一系列的公司,
昨天,2018京东人工智能创新峰会举行,京东集团副总裁、AI 平台与研究部负责人周伯文揭开了京东技术布局下的 AI 战略全景图。这个全景图概括起来说就是“三大主体、七大应用场景和五个人工智能产业化的布
选自Stanford 机器之心编译 参与:路雪、蒋思源 韩松,2017 年斯坦福大学电子工程系博士毕业,师从 NVIDIA 首席科学家 Bill Dally 教授。他的研究也广泛涉足深度学习和计算机体系结构,他提出的 Deep Compression 模型压缩技术曾获得 ICLR'16 最佳论文,ESE 稀疏神经网络推理引擎获得 FPGA'17 最佳论文,对业界影响深远。他的研究成果在 NVIDIA、Google、Facebook 得到广泛应用,博士期间创立了深鉴科技,2018 年将任职 MIT 助理教授
一、背景介绍 随着超高清(UHD,Ultra High Definition)概念的普及,4K分辨率的视频应用越来越受到消费者的青睐。4K分辨率的视频应用在为消费者提供更加精细的细节以及更加生动的体验的同时,对视频信息的传输与存储也提出了更大的挑战。虽然最新一代的视频编码标准HEVC(High Efficiency Video Coding)相比于上一代编码标准压缩性能有近一倍的提升,在应对高分辨率视频应用时其压缩性能仍稍显不足。因此进一步提高压缩效率的先进视频编码技术依旧需要大力研究。 作为人工智能领域的
对自然图片的分布进行建模一直以来都是无监督学习中的里程碑式的难题。这要求图片模型易表达、易处理、可拓展。我们提出一个深度神经网络,它根据顺序沿着两个空间维度来预测图片中的像素。我们的模型离散了原始像素值的可能性,同时编码保证了整个图片的完整性。 建模特性包含二维循环层,以及对深度递归网络连接的有效利用。我们实现了比之前所有的模型都要好的在自然图片上对数可能性的分数。我们的主要结果也对Imagenet进行分类提供了支撑依据。从模型分析出的样本相当清楚、多样且有普遍适用性。 引言 在无监督学习中,通用型图形建模
出品 | AI科技大本营(公众号ID:rgznai100) AI科技大本营按:4 月 15 日举办的京东人工智能创新峰会上,刚刚上任京东人工智能南京分院学术总顾问的周志华教授做了《关于深度学习一点思考》的公开分享。 近年来,深度神经网络在语音、图像领域取得突出进展,以至于很多人将深度学习与深度神经网络等同视之。但周志华表示,总结 Kaggle 竞赛中的获奖结果可以发现,神经网络获胜的往往就是在图像、视频、声音这几类典型任务上,而在其它涉及到混合建模、离散建模、符号建模的任务上,相比其他模型就会差一些。
量化通过将连续值映射到用于熵编码的有限离散值集来离散图像特征以压缩图像。虽然目前基于神经网络的图像压缩采用的量化方法解决了训练测试不匹配的问题,但量化对潜在特征的随机影响仍未解决。量化将连续值统一映射到单个离散值,根据特征可变性引入不同程度的噪声。例如,从
来源: SigAI 作者: AI学习与实践平台 导言 在机器视觉和其他很多问题上,卷积神经网络取得了当前最好的效果,它的成功促使我们思考一个问题,卷积神经网络为什么会这么有效?在本文中,SIGAI将为大家分析卷积神经网络背后的奥秘。 思想起源 在各种深度神经网络结构中,卷积神经网络是应用最广泛的一种,它由LeCun在1989年提出[1]。卷积神经网络在早期被成功应用于手写字符图像识别[1][2][3]。2012年更深层次的AlexNet网络[4]取得成功,此后卷积神经网络蓬勃发展,被广泛用于各个领域,在很多
新智元报道 演讲人:周志华 【新智元导读】在昨天举行的2018京东人工智能创新峰会上,南京大学计算机系主任、人工智能学院院长周志华教授进行了题为《关于深度学习的思考》的主题演讲。周志华教授提出,人
领取专属 10元无门槛券
手把手带您无忧上云