前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >FPGA论文系列--Can FPGAs Beat GPUs in Accelerating DNN?

FPGA论文系列--Can FPGAs Beat GPUs in Accelerating DNN?

作者头像
猫叔Rex
发布于 2024-05-13 07:52:58
发布于 2024-05-13 07:52:58
2930
举报
文章被收录于专栏:科学计算科学计算

今天我们讨论的是一篇2017年2月份由Intel发表的论文,在文章结尾,我们会总从当前这个时间点来回看一下这篇论文的观点。

我们来看一下这篇paper中讲了什么内容?

当前状况:GPU与DNN的紧密联系

当前主流的DNN,比如AlexNet和VGG,其计算密集型任务——浮点矩阵乘法(GEMM)与GPU并行计算模型完美契合。GPU凭借其出色的并行处理能力和每秒万亿次浮点运算(TFLOP/s)的能力,成为了DNN加速的首选硬件。相比之下,尽管FPGA在能源效率(即每瓦性能)上占据优势,但在直接的DNN处理性能上仍落后于GPU。

FPGA技术的飞跃:Stratix10 的突破

然而,技术的进步正在改变这一局面。即将面世的Intel Stratix 10 FPGA,配备了超过5000个硬化浮点单元(DSP)、超过28MB的片上RAM(M20K块)、高带宽存储器(HBMs)集成,以及HyperFlex™架构带来的更高频率,理论上可以达到9.2 TFLOP/s的FP32吞吐量,直逼NVIDIA Titan X Pascal GPU的11 TFLOP/s峰值。这意味着FPGA在性能上已接近GPU的水平。

DNN算法的演进:稀疏性与数据类型压缩

DNN算法本身也在经历革命性的变化,为FPGA提供了赶超的机会。近期的研究显示,通过利用网络稀疏性(例如剪枝技术)和极简数据类型(如1-2位数据表示),新一代DNN在算法效率上取得了显著提升。这种进展虽然引入了GPU难以有效处理的不规则并行性和定制数据类型,却是FPGA灵活性和定制化能力的完美舞台。

实验评估:FPGA与GPU的直接比较

研究团队在两种Intel FPGA(Arria 10和Stratix 10)与Titan X Pascal GPU之间进行了直接对比,使用了一种可定制的DNN加速器模板。他们特别关注了稀疏修剪和低比特精度(ternary,即三态)神经网络的处理。实验中,通过优化数据管理单元,动态检查和跟踪零值,从而跳过不必要的零运算,实现了性能的提升。对于Stratix 10 FPGA,研究团队发现通过仅在神经元层面实施零跳跃策略,结合2位三态数据格式,可以在保持硬件资源效率的同时,实现有效的计算加速。

在某些情况下,例如对于剪枝、Int6和二值化的DNNs,Stratix 10 FPGA的性能分别比Titan X Pascal GPU提高了10%、50%和5.4倍。而对于Ternary ResNet的情况,Stratix 10 FPGA在性能上预计比Titan X Pascal GPU提高了60%。此外,性能/瓦特比方面,Stratix 10 FPGA也表现出更好的性能,预计比Titan X Pascal GPU提高了2.3倍。

GPU评估:软件生态的助力

对于GPU的评估,研究团队使用了Torch框架和Ternary ResNet-50模型在Titan X Pascal上进行测试,发现最佳性能出现在批次大小为64时。利用cuDNN库提供的优化,包括Winograd变换等高级数学算法,GPU展现了其强大的软件生态系统支持。尽管如此,实际测试中Ternary ResNet的平均性能为6.6 TFLOP/s,低于GPU理论峰值的11 TFLOP/s。

以当前的时间点回看

当时英伟达最强的GPU还是Titan X,算力是11 TFLOPS,但现在RTX 3090 Ti的单精度浮点运算性能就已经达到了约40 TFLOPS,远超Titan X ,而明年出来的B200 GPU拥有高达2080亿个晶体管,可以提供高达20 petaflops的FP4算力,又达到了前所未有的高度。

当时Intel的Stratix 10 FPGA还未发布,Stratix 10 具备数千个硬浮点单元(DSP)和片上RAM(M20K内存块),以及高带宽内存(HBMs)和改进的频率(HyperFlex™核心架构)。这些特性组合使FPGA在原始浮点运算性能上逼近GPU。

但这几年Transformer大行其道,AI的发展方向几乎就是大模型,曾经的国内AI四小龙,都已经成为过去,他们也并没有掀起太大的浪花。而且这几年因为AI的发展需求,英伟达的市值也远超Intel,甚至在AI高速发展的几年,Intel市值都没有太大变化,说明FPGA并未对AI的发展起到太大的作用,而Intel前几年FPGA的发展的主要精力也放到了数据中心

现在在AI的训练方面,英伟达几乎是无敌的存在,在高端的H系列,没有竞争对手。前段时间大火的Groq,他们的大模型速度非常快,但他们也只是用了自己的推理芯片,他们也非常清楚,在训练方面还没法挑战英伟达。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 傅里叶的猫 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
FPGA 超越 GPU,问鼎下一代深度学习主引擎
【新智元导读】英特尔加速器架构实验室的Eriko Nurvitadhi 博士以最新的 GPU 为参照,对两代 Intel FPGA 上新兴的DNN算法进行了评估,认为新兴的低精度和稀疏DNN算法效率较之传统的密集FP32 DNN有巨大改进,但是它们引入了GPU难以处理的不规则并行度和定制数据类型。相比之下,FPGA正是设计用于在运行不规则并行度和自定义数据类型时实现极端的可定制性的。这样的趋势使未来FPGA成为运行DNN、AI和ML应用的可行平台。 来自社交媒体和互联网的图像、视频和语音数字数据的持续指数
新智元
2018/03/27
1K0
FPGA 超越 GPU,问鼎下一代深度学习主引擎
未来FPGA能击败GPU么?这是英特尔的研究成果
问耕 编译整理 量子位·QbitAI 报道 在最近的FPGA国际研讨会(ISFPGA)上,英特尔加速器架构实验室(AAL)的Eriko Nurvitadhi博士,发表题为《Can FPGAs beat GPUs in Accelerating Next-Generation Deep Neural Networks》的报告,分享了英特尔的最新研究。 这一研究,主要评估在DNN(深度神经网络)算法领域,两代英特尔FPGA(Intel Arria10和Intel Stratix 10),与NVIDIA TITA
量子位
2018/03/22
8400
未来FPGA能击败GPU么?这是英特尔的研究成果
深度学习:FPGA VS GPU
阅读原文有学习资源分享。 导语:FPGA 在加速下一代深度学习方面能击败GPU吗? 许多图像、视频和语音来自社交媒体和物联网等数据源,这些内容的数字数据继续急剧增长,从而促使企业界需要分析技术让这些数据易于理解、具有实用性。 数据分析常常依赖机器学习算法。在诸多机器学习算法中,深度卷积神经网络(DNN)为重要的图像分类任务提供了最高的准确度,因而得到了广泛采用。 在可编程门阵列国际研讨会(ISFPGA)上,来自英特尔加速器架构实验室(AAL)的埃里科·努维塔蒂(Eriko Nurvitadhi)博士介绍了
IT派
2018/03/29
2K0
深度学习:FPGA VS GPU
业界 | 深度学习硬件对比评测:英特尔FPGA和英伟达GPU哪个更好?
选自Nextplatform 作者:Linda Barney 参与:李泽南、晏奇、黄小天、吴攀 FPGA 会随着深度学习的发展占领 GPU 的市场吗?英特尔的研究人员对目前最好的两种芯片做了对比。 社交媒体和物联网正持续不断地以指数级方式产出语音、视频、图像等数字数据,这带动了对于数据分析(让数据变得可理解与可执行)的需求。数据分析经常依赖于机器学习(ML)算法。在众多机器学习算法中,深度卷积神经网络在重要的图像分类任务中具有当前最高的精确度,因而被广泛采用。 在最近的「2017 现场可编程门阵列国际大会(
机器之心
2018/05/07
9420
业界 | 深度学习硬件对比评测:英特尔FPGA和英伟达GPU哪个更好?
业界 | 超越英伟达Pascal五倍?揭秘英特尔深度学习芯片架构
选自The Next Platform 作者:Nicole Hemsoth 机器之心编译 参与:李泽南、李亚洲 在被英特尔收购两年之后,深度学习芯片公司 Nervana 终于准备将代号为「Lake C
机器之心
2018/05/11
6950
从GPU、TPU到FPGA及其它:一文读懂神经网络硬件平台战局
选自Blogspot 作者:Matt Hurd 机器之心编译 参与:Panda 在如今深度学习大爆发的时代,相关的硬件平台也在百花齐放,既有英伟达和谷歌这样的科技巨头,也有地平线机器人和 Graphc
机器之心
2018/05/09
1.4K0
业界 | 剖析用于深度学习的硬件:GPU、FPGA、ASIC和DSP
选自Medium 作者:Eugenio Culurciello 机器之心编译 参与:Rick R、吴攀 在这篇文章中,作者Eugenio Culurciello简述了几类硬件设计,希望能为大家更快的运行神经网络提供洞见。 我喜欢深度学习... 深度学习最近取得的成功势不可挡:从图像分类和语音识别到图片标注、理解视觉场景、视频概述、语言翻译、绘画,甚至是生成图像、语音、声音和音乐! …而我想让它运行得飞快! 其成果令人震惊,因而需求就会增长。比如你是谷歌/ Facebook / Twitter 的工作人员
机器之心
2018/05/07
1.3K0
英伟达又出新卡皇TITAN Xp(下一代可能是TITAN Vista)
问耕 发自 凹非寺 量子位 报道 | 公众号 QbitAI 简单通知一下,英伟达再次发布了TITAN Xp,接替了之前大概属于1080 Ti的“卡皇”地位。需要提醒的是,TITAN X去年用上Pasc
量子位
2018/03/22
9210
英伟达又出新卡皇TITAN Xp(下一代可能是TITAN Vista)
技术总结|十分钟了解GPU
最近在看《黄仁勋:英伟达之芯》,这本书讲述了英伟达是如何一步一步优化GPU,感觉创业不易,不过本文为了让大家更好了解GPU,所以简单汇总了一些知识点。
用户1904552
2025/02/27
1170
技术总结|十分钟了解GPU
英伟达机器学习5大网红GPU卡
除了高性能计算,GPU自身具备的高并行度、矩阵运算与强大的浮点计算能力非常符合深度学习的需求。它可以大幅加速深度学习模型的训练,在相同精度下能提供更快的处理速度、更少的服务器投入以及更低的功耗。小编结合工作中客户咨询的经验,总结出英伟达5大热门机器学习用GPU卡。 第五名:Tesla K80   Tesla ——英伟达高端大气上档次专用计算卡品牌,以性能高、稳定性强,适用于长时间高强度计算著称。 Tesla K80 双GPU 加速器可透过一卡双 GPU 提供双倍传输量,内置24G
GPUS Lady
2018/03/30
10.3K0
英伟达机器学习5大网红GPU卡
英伟达显卡:AI时代的无冕之王
在当今的人工智能(AI)时代,显卡已经从仅仅是游戏和图形处理的工具,转变为了深度学习和AI应用的重要驱动力。在这个领域,英伟达显卡无疑是一位无冕之王。那么,究竟是什么让英伟达显卡在AI领域独领风骚呢?让我们通过对比其主要竞争对手AMD和Intel,深入探讨英伟达显卡的优势。
码事漫谈
2025/01/08
3660
英伟达显卡:AI时代的无冕之王
四种GPU的性能分析
导语:Pedro Gusmão 等人对于英伟达的四种 GPU 在四种不同深度学习框架下的性能进行了评测。本次评测共使用了 7 种用于图像识别的深度学习模型。 第一个评测对比不同 GPU 在不同神经网络和深度学习框架下的表现。这是一个标准测试,可以在给定 GPU 和架构的情况下帮助我们选择合适的框架。 第二个测试则对比每个 GPU 在不同深度学习框架训练时的 mini-batch 效率。根据以往经验,更大的 mini-batch 意味着更高的模型训练效率,尽管有时会出现例外。在本文的最后我们会对整个评测进行简
IT派
2018/03/29
2.7K0
四种GPU的性能分析
英伟达犯众怒!禁止数据中心用GeForce!这下,英特尔AMD机会来了
作者 | 鸽子 今天的朋友圈,被英伟达给炸了。 怎么回事呢? 话说,英伟达这货最近悄然修改了用户许可协议(EULA),禁止在数据中心使用消费者级显卡GeForce做深度学习。用什么呢?强制用其高端处理器Tesla系列。 GeForce和Tesla这两者有什么区别? 来看一组数据: GeForce GTX 1080: PASCAL; 2560 CUDA cores; 8 TFLOPS (single-prec); 8 GB GDDRX5 320 GB/s; max 180 W. Tesla P100: P
AI科技大本营
2018/04/27
9250
英伟达犯众怒!禁止数据中心用GeForce!这下,英特尔AMD机会来了
柯洁中盘再败!谷歌乘AlphaGo之势强推TPU,与英伟达必有一战
【新智元导读】人机对战第二场,柯洁认输,AlphaGo中盘获胜将比分改写为2:0,TPU可谓是本次AlphaGo升级的秘密武器。 由此,许多人认为,谷歌与英伟达必有一战。谷歌已经开始向中国市场上的企业和开发者兜售自己的TPU,加上TensorFlow和谷歌云等标志性业务。这对在深度学习上获利丰厚的英伟达来说可能并不是一件好事。 柯洁又输了,与AlphaGo的对决比分被改写为0:2 ! AlphaGo变得更强大了,此前DeepMind和谷歌团队在新闻发布会上说,。除了算法上的改进之外,他们也特别强调了谷歌云和
新智元
2018/03/28
8620
柯洁中盘再败!谷歌乘AlphaGo之势强推TPU,与英伟达必有一战
英伟达Volta架构深度解读:专为深度学习而生的Tensor Core到底是什么?
机器之心报道 编辑:CZ、Jenny Huang、李泽南、吴攀、蒋思源 当地时间 5 月 8-11 日,英伟达在加州圣何塞举行了 2017 年的 GPU 技术大会(GTC 2017)。机器之心作为本次大会的特邀媒体,也来到了现场,参阅《现场报道 | 英伟达 GTC 大会开幕,盘点首日三大亮点》。昨天,英伟达 CEO 黄仁勋在大会上正式发布了目前最先进的加速器 NVIDIA Tesla V100。之后,英伟达开发博客又更新了一篇深度解读文章,剖析了 Tesla V100 背后的新一代架构 Volta,其在提供
机器之心
2018/05/08
4.2K0
英伟达Volta架构深度解读:专为深度学习而生的Tensor Core到底是什么?
【香橼做空英伟达】一年半股价624%增长,AI神话还是虚假繁荣
【新智元导读】正值美股科技公司估计集体大跌之际,6月9日,著名做空机构香橼再发报告看衰英伟达,称其股价将跌回130美元。当天,英伟达大跌6.5%,一天之内市值蒸发近1000亿美元。 不过今天英伟达股价实现小幅攀升。虽然如此,有分析认为英伟达从急剧抛售中反弹并不奇怪,这正是“抛售”的一个重要信号。香橼报告之所以看好谷歌,看衰英伟达,是认为数据中心、AI和自动驾驶构成了刺激英伟达股价上涨的三驾马车,而在这三方面,谷歌才是真正的领导者。 著名做空机构6月9日再度做空英伟达,在一份6页的研究报告中,香橼以《英伟达:
新智元
2018/03/28
1.3K0
【香橼做空英伟达】一年半股价624%增长,AI神话还是虚假繁荣
业界丨深度学习的三种硬件方案 ASICs、FPGAs 和 GPU,开发者需要知道什么?
AI科技评论:今年三月 AlphaGo 和李世石的“世纪之战”炒红了深度学习—— AlphaGo 采用了人工神经网络技术,充分挖掘了深度学习的潜力。简单来说,深度学习是一个包含了许多层级数据处理的神经
AI科技评论
2018/03/09
1.3K0
业界丨深度学习的三种硬件方案 ASICs、FPGAs 和 GPU,开发者需要知道什么?
深度学习GPU工作站配置参考
CPU要求:在深度学习任务中,CPU并不负责主要任务,单显卡计算时只有一个核心达到100%负荷,所以CPU的核心数量和显卡数量一致即可,太多没有必要,但是处理PCIE的带宽要到40。
Cloudox
2021/11/23
4.3K0
深度学习GPU工作站配置参考
自动驾驶全球产业链全景图
英特尔在自动驾驶领域主要是通过并购来完成布局:2015年6月167.5亿美元收购FPGA 巨头Altera;2016年9月收购计算机视觉处理芯片公司Movidius;2017年3月153亿美元收购以色列自动驾驶汽车技术公司Mobileye。
刘盼
2018/07/26
1.5K0
自动驾驶全球产业链全景图
【了不起的芯片2】盘点40+公司的深度学习处理器
【新智元导读】本文列举并介绍了现有的几乎全部深度学习处理器,是值得收藏的超全资料。 Nvidia GPU 英伟达最新的 GPU NVIDIA TESLA V100 单精度浮点性能达到15 TFlops,在新的 Tensor core 架构达到 120 TFlops,是FP16乘法或FP32累加,或适应ML。 英伟达将8个board包装在他们的 DGX-1 for 960 Tensor TFlops Nvidia Volta - 架构看点 这篇文章对 Volta 架构做了一些分析 SoC 英伟达提供 NVID
新智元
2018/03/22
1K0
推荐阅读
相关推荐
FPGA 超越 GPU,问鼎下一代深度学习主引擎
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档