近年来,神经网络在各种领域相比于传统算法有了极大的进步。在图像、视频、语音处理领域,各种各样的网络模型被提出,例如卷积神经网络、循环神经网络。训练较好的 CNN 模型把 ImageNet 数据集上 5 类顶尖图像的分类准确率从 73.8% 提升到了 84.7%,也靠其卓越的特征提取能力进一步提高了目标检测准确率。RNN 在语音识别领域取得了最新的词错率记录。总而言之,由于高度适应大量模式识别问题,神经网络已经成为许多人工智能应用的有力备选项。
随着大数据的发展,计算机芯片算力的提升,人工智能近两年迎来了新一轮的爆发。而人工智能实现超级算力的核心就是AI芯片。AI芯片也被称为人工智能加速器,即专门用于处理人工智能应用中的大量计算任务的模块。 2020年我国人工智能芯片市场规模约为184亿元。未来5G商用的普及将继续催生人工智能芯片的应用需求,中国人工智能芯片行业将快速发展,预计2023年市场规模将突破千亿元。 那么,如何借助AI芯片来实现特定的任务,将是所有AI芯片产业人员必备的技能。 为此,贪心学院重磅推出《高性能神经网络与AI芯片应用研修课程》
导语:在过去的10-20年间,硬件技术取得了惊人的进步,但在高性能数据中心和高度受限的移动环境中却仍然不能“奢求”廉价的性能。很多人认为,硬件的下一个进步是将神经网络加速器添加到CPU + GPU集群中。然而,这可能会扼杀SoC的性能......
众所周知,深度神经网络模型被广泛应用在图像分类、物体检测,目标跟踪等计算机视觉任务中,并取得了巨大成功。 随着不同场景的需求变得更加多样,越来越多的IoT设备和场景需要与数据采集点以最接近的低时延来进行决策和操作;另外IoT物联设备生成的数据量通常很大,由于运营成本、时间和隐私方面的考虑,移动和存储所有生成的数据不太可行。 AI技术的一个趋势是在设备端上部署高性能的神经网络模型,并在真实场景中实时运行。如移动端/嵌入式设备,这些设备的特点是内存资源少,处理器性能不高,功耗受限,这使得目前精度最高的模型根本
新智元专栏 作者:UCSB谢源教授研究组 编辑:闻菲 【新智元导读】计算机体系结构顶会ISCA-18上周结束,图灵奖得主John Hennessy和David Patterson发表特邀报告,展望
【新智元导读】计算机体系结构顶级会议 ISCA2016日前召开,神经网络和深度学习成为热点。新智元整理了 ISCA 2016 神经网络相关论文(包括本届会议最高得分论文),并邀美国加州大学圣塔芭芭拉分
众所周知深度神经网络模型被广泛应用在图像分类、物体检测,目标跟踪等计算机视觉任务中,并取得了巨大成功。 然而随着时代发展,人们更加关注深度神经网络的实际应用性能,人工智能技术的一个趋势是在边缘端平台上部署高性能的神经网络模型,并能在真实场景中实时(>30帧)运行。 如移动端/嵌入式设备,这些平台的特点是内存资源少,处理器性能不高,功耗受限,这使得目前精度最高的模型根本无法在这些平台进行部署和达到实时运行。 由于存储空间和算力资源限制,神经网络模型在移动设备和嵌入式设备上的存储与计算仍然是一个巨大的挑战。
在科学研究中,从方法论上来讲,都应先见森林,再见树木。当前,人工智能科技迅猛发展,万木争荣,更应系统梳理脉络。为此,我们特别精选国内外优秀的综述论文,开辟“综述”专栏,敬请关注。
物联网与人工智能结合的发展趋势,对神经网络加速芯片的能效有了更高的要求。由于剪枝和 RELU 等操作,神经网络的权重和激活矩阵中存在广泛的稀疏性分布,且不同网络和同一网络不同层的稀疏度各不相同,其稀疏度分布范围高达 4-90%。由于不同稀疏度矩阵运算对于计算和存储电路要求各不相同,提出一种统一架构同时高效处理各种稀疏度的人工神经网络矩阵,是人工智能芯片设计领域的一大难题。
参考相关网站: http://cs231n.github.io/convolutional-networks/
【新智元导读】以类似结构将产生类似功能为假设,“类脑计算”以神经形态器件构造电子大脑,绕过“理解智能”,专注“模拟智能”,或将颠覆现有计算模型并有助于弄清何为“智能”。北大教授黄铁军以客座编辑身份为“
来源:专知本文为论文介绍,建议阅读5分钟本文从分析图计算应用 和图神经网络的执行特征出发,对专用图处理加速架构进行了探索。 来自中科院计算所的严明玉博士论文,入选2022年度“CCF优秀博士学位论文奖”初评名单! https://www.ccf.org.cn/Focus/2022-12-08/781244.shtml 图计算应用和图神经网络是处理图数据的核心应用,被广泛应用于各个领 域。图数据处理应用特有的执行行为导致传统的通用架构无法高效地执行上述 应用。随着智能万物互联时代的来临,上述应用急需高效的硬件
随着 AI 技术的不断发展,单一的网络结构已经很难满足不同领域的任务需求。常见的应用诸如图像识别或机器翻译分别需要卷积神经网络或循环神经网络的支持。而不同网络意味不同的计算模式,在带宽和计算资源上也会有各自的限制。因此,通用加速器的核心挑战是如何联合优化各种网络下的芯片能效。
来自中科院计算所的严明玉博士论文,入选2022年度“CCF优秀博士学位论文奖”初评名单!
神经网络的压缩和加速现在已经成为一个热门课题,这个领域有多种研究方法,网络量化就是其中之一。网络量化分为输入量化和权值量化两种。而同时将输入和权值量化会造成网络精度的大幅下降。在 Performance Guaranteed Network Acceleration via High-Order Residual Quantization (性能保障的高阶残差量化网络加速方法)一文中,作者针对这个问题,提出了高阶残差量化(HORQ)的方法,既能够利用网络量化带来的大幅计算加速,又能够保证网络的精度不会大幅
AI 科技评论按:6 月 2 日至 6 日,第 45 届国际计算机体系结构大会(International Symposium on Computer Architecture,简称 ISCA)在美国洛杉矶召开。国际计算机体系结构大会(ISCA)是计算机体系结构领域的顶级会议。本次大会共收到 378 篇投稿,收录 64 篇论文。
神经网络搜索(NAS)的研究极大地推动了人工智能全民化的进程,即让各行各业的应用都具有智能。
自从投身智能硬件以来,又开始重新关注嵌入式领域的相关技术。这是“2018嵌入式处理器报告: 神经网络加速器的兴起”(http://www.embedded-computing.com/processing/2018-embedded-processor-report-rise-of-the-neural-network-accelerator,作者 BRANDON LEWIS) 的短译文。
在深度学习的实践中,我们经常会使用GPU来加速模型的训练和推理过程。而在使用GPU时,可能会遇到一些错误和异常,其中一个常见的错误是 "RuntimeError: cudnn64_7.dll not found"。这篇文章将会详细讲解这个错误的原因以及解决方法。
人工智能和机器学习应用程序代表了嵌入式处理器的下一个重大市场机遇。然而,传统的处理解决方案并不是为了计算神经网络的工作负载,这些工作负载为许多应用程序提供了动力,因此需要新的架构来满足我们对智能日益增
深度神经网络 (DNN) 是一种人工神经网络(ANN),在输入层和输出层之间具有多层。有不同类型的神经网络,但它们基本由相同的组件组成:神经元、突触、权重、偏差和函数。这些组件的功能类似于人类大脑,可以像任何其他 ML 算法一样进行训练。
光纤能够以光的形式在世界范围内传输数据,成为现代电信技术的支柱。不过如果需要分析这些传输数据,要将其从光信号转换为电子信号,然后用电子设备进行处理。曾经有一段时间,光学被认为是未来最具潜力的计算技术的基础,但与电子计算机的快速进步相比,光学计算技术的竞争力明显不足。
在Simple TPU的设计和性能评估中,一个神经网络加速器的硬件雏形已经搭建完成了;在https://github.com/cea-wind/SimpleTPU上给出了相应的代码,和RTL仿真结果。在TPU中的脉动阵列及其实现和神经网络中的归一化和池化的硬件实现中,针对硬件实现中的关键模块也进行了仿真分析。但是,最终并没有给出一个可以实际运行的例子。这意味着,即使将这一部分代码应用到FPGA上,或者是实现在ASIC上后,也只有纸面性能却并不可用。
近日,NeurlPS2019 大会放出了一个名为「Efficient Processing of Deep Neural Network: from Algorithms to Hardware Architectures」的演讲。该演讲主要介绍各类能够使硬件高效处理深度神经网络(DNN)计算的方法,包括在计算机视觉、语音识别、机器人等领域,而涉及到的硬件包含了从 CPU、GPU 到 FPGA 和 ASIC 等各类计算硬件。
作者:陈添水 【新智元导读】中山大学、香港理工大学、商汤等机构的联合研究团队提出基于类小波自编码机的深度网络加速法,不需要改动原来网络的结构,故可以兼容现有的深度神经网络,有极好的普适性。相关研究已被AAAI 2018录用为oral paper,第一作者中山大学博士生陈添水带来详细解读。 论文下载:https://arxiv.org/pdf/1712.07493.pdf 深度网络不断地提升计算机视觉任务的性能,然而,性能提高往往却伴随着愈高的计算复杂度,这严重限制了深度网络在资源受限的平台(如手机,移动嵌入
来源:blog.google 编译:弗格森 【新智元导读】 谷歌为树莓派制作了一个具有设备上的神经网络加速功能的套件,在没有云连接的情况下提供强大的计算机视觉能力。根据The Verge的报道,该套件售价为44.99美元。 今年早些时候,旨在帮助创客(maker)体验和了解人工智能AIY项目启动。第一个产品AIY语音工具包大获成功,人们创造了许多漂亮的的项目,展示了创客项目中开发语音识别的可能性。 今天,AIY项目发布第二个产品——Vision Kit。这是一个具有设备上的神经网络加速功能的项目,在没有云连
本文为DianNao系列加速器总结的第一篇,有较多公式,简书不支持公式渲染,公示完整版待该总结完成后将统一发表在个人博客 简介 DianNao系列是中科院计算所推出的系列机器学习加速器,包括以下四个成员: DianNao:神经网络加速器,DianNao系列的开山之作。 DaDianNao:神经网络“超级计算机”,DianNao的多核升级版本 ShiDianNao:机器视觉专用加速器,集成了视频处理部分 PuDianNao:机器学习加速器,DianNao系列收山之作,可支持7种机器学习算法 DianNao系
我们结合2017年的 FPGA 和 ISSCC 会议上的代表性工作,给出了神经网络的一些新热点和研究趋势。
AI科技评论消息,北京时间10月16日,华为 Mate 10 在德国慕尼黑发布。作为华为2017年的旗舰系列,其中,Mate 10 4GB+64GB 的售价为 699 欧元(合人民币 5434 元),
尽管人工智能和机器学习应用的加速仍是一个相对较新的领域,但各种处理器如雨后春笋般涌现,几乎可以加速任何神经网络工作负载。
杨净 发自 凹非寺 量子位 报道 | 公众号 QbitAI 最近,第53届国际微架构大会(MICRO)在线上顺利召开。 作为计算机体系结构四大顶级会议,清华大学魏少军、刘雷波团队有两篇入选该会议论文。 这是该团队既去年斩获MICRO 2019最佳论文提名后,在体系结构顶级会议上的又一重要突破。 在会议上,他们做了两篇学术报告。 分别为: Constant-time Alteration Ternary CAM with Scalable In-Memory Architecture 一种基于可扩展存内架
翻译 | AI科技大本营(rgznai100) 参与 | 周翔 日前,英特尔旗下公司Movidius刚刚推出了一款全新产品:一个能让开发者和研究人员在终端设备部署深度学习应用程序的USB棒,售价79美元。 英特尔表示,Movidius神经计算棒(Neural Computer Stick)是世界上第一款采用USB格式的AI加速器,这个计算棒能够编译并加速边缘神经网络。而且,这款产品并不需要连接到云端,可以直接在本地实现处理。 去年4月,Movidius曾推出过一款名为Fathom的模型产品,不过因为英特
人工智能、机器学习以及深度学习这些热点技术,受到了极为广泛的关注,这要归功于很多大型互联网公司对这些技术的应用,人工智能算法,例如图像或者语音识别,以及自然语言处理,我们大多数人几乎每天都会使用这样的系统和应用。
原文链接: https://arxiv.org/pdf/2006.14815.pdf
2016年,随着阿尔法狗击败专业人类围棋棋手,已“深度学习”为基础的人工智能技术被大众所熟知。其实“深度学习”技术已经发展了有近30年的历史了。现在的“深度学习”的实现以神经网络技术为主。神经网络通过模拟大脑生物神经网络的连接,通过多层数字神经网络的了解,来实现深度学习,神经网络最著名的就是卷积神经网络。“深度学习”中的深度就体现在多层的神经网络的连接,因为初代的机器学习技术的学习网络层数都比较浅。
作为新兴信息产业的重要应用领域,物联网的万亿级别市场正在逐步形成,超万亿级的设备和节点将通过物联网技术实现万物互联和万物智联。受限于体积、重量和成本等因素,物联网节点(如可穿戴设备、智能家居节点、无线传感器节点、环境监测节点等)需要在微型电池或能量收集技术进行供电的情况下,能够持续工作数年乃至十年以上,这对芯片提出了苛刻的低功耗要求。 目前,降低物联网芯片功耗的主要研究方向是基于周期性工作模式的专用型唤醒芯片(例如:专用语音识别唤醒芯片),通过让芯片处于周期性的“休眠-唤醒”的切换状态,来实现降低功耗的目的;然而,物联网节点通常工作在“随机稀疏事件”场景下,为了避免丢失随时可能发生的事件,通常需要“休眠-唤醒”的频率远高于事件的真实发生率,从而导致了严重的功耗浪费。
AiTechYun 编辑:nanan Aaeon公司推出了“UP AI Core”—— mini-PCIe版本的英特尔Movidius神经计算棒,用于神经网络加速,可用于UP Squared SBC和
昨天,优步AI Lab开源了深度神经进化的加速代码。其博客上称,哪怕用户只有一台电脑(台式机),用这个代码也能训练出会打雅达利的AI。而且只需要4!小!时!
来源:uwaterloo.ca 作者:闻菲 【新智元导读】滑铁卢大学的研究人员,借鉴有性生殖让后代更能适应环境的道理,在虚拟环境中让神经网络完成“交配仪式”,同时逐渐减少AI能使用的计算和存储资源,生成了更紧凑、轻量的神经网络,能够在没有互联网连接的终端提供强大的性能。 滑铁卢大学研究人员表示,他们可以让人工智能在计算和存储资源被移除后自行适应,方法是教AI学习自己并不需要那么多资源。 如果真的做到了这一点,神经网络将不受互联网和云的影响,这样的好处是:隐私性更好,数据发送成本更低,可移植性更强,在地理偏远
作者:Shaohui Lin、Rongrong Ji、Feiyue Huang 等
RKNN(Rockchip Neural Network)是由瑞芯微(Rockchip)推出的神经网络加速器和推理引擎。它是一种硬件加速器,专门用于在瑞芯微的处理器上执行神经网络推理任务,提高神经网络模型在嵌入式设备上的性能。
本周关键词 Intel Nervana|华为Mate 10 AlphaGo Zero|吴恩达Woebot 主播 | 吴璇 ▼点击可听 \ 这里有你想知道的本周 AI 大事件 / · Intel发布Intel® Nervana™神经网络处理器 · 华为率先发布世界上第一款人工智能芯片 · AlphaGo再进化,实力碾压旧狗 · 吴恩达出任Woebot董事长,出手医疗领域帮人们治疗抑郁症 NO/1 Intel发布Intel® Nervana™神经网络处理器 在10月17日召开的WSJ D.Live大会上,I
目前在深度学习领域分类两个派别,一派为学院派,研究强大、复杂的模型网络和实验方法,为了追求更高的性能;另一派为工程派,旨在将算法更稳定、高效的落地在硬件平台上,效率是其追求的目标。复杂的模型固然具有更好的性能,但是高额的存储空间、计算资源消耗是使其难以有效的应用在各硬件平台上的重要原因。所以,卷积神经网络日益增长的深度和尺寸为深度学习在移动端的部署带来了巨大的挑战,深度学习模型压缩与加速成为了学术界和工业界都重点关注的研究领域之一。本文主要介绍深度学习模型压缩和加速算法的三个方向,分别为加速网络结构设计、模型裁剪与稀疏化、量化加速。
几十年来,正如摩尔定律所描述的那样,通过缩小芯片内部晶体管的尺寸,计算机处理器的性能每隔几年就可以提升一倍。但随着缩小晶体管尺寸变得越来越困难,业界将重点放在了开发硬件加速器这样的特定于域的体系架构上面,从而继续提升计算能力。
支持4K60的H.265/H.264编码,支持10路1080p30的H.265/H.264解码。
我们筛选了在arXiv.org上出现的最新研究论文,这些研究论文涉及与人工智能、机器学习以及深度学习相关的引人注目的主题,包括统计学、数学和计算机科学等学科,最终列出了过去一个月的最佳论文。arXiv包含一个名副其实的学习方法宝库,你可以使用它来解决数据科学问题。
Imagination刚刚发布了有史以来最高性能的GPU IP——PowerVR图形处理器架构IMG A系列(IMG A-Series)。
VALSE(Vision and Learning Seminar, VALSE)发起于2011年,是国内计算机视觉、图像处理、模式识别与机器学习等研究领域的青年学者、学生的一个高水平的学术交流舞台。同时,VALSE连续举办了七届会议,最近的由大连理工大学承办,极市也作为赞助商支持了VALSE 2018。 VALSE同时提供了非常多高质量免费的共享资源,为了方便大家收集,极市整理并汇总了VALSE大会的ppt及海报,valse每周线上分享视频及ppt, valse 大会上精彩的文章解读等,欢迎收藏,也欢迎大家补充~(若链接失效,可联系小助手微信(Extreme-Vision)获取资源)
领取专属 10元无门槛券
手把手带您无忧上云