帮你找到深度学习鄙视链中的定位,量身打造个人深度学习GPU卡升级方案。
本文仅讨论NVIDIA GPU卡。
Tesla V100 NVLink版本鄙视PCIE版本
目前在售的NVIDIA Volta架构中Tesla V100处于深度学习GPU专业卡的最顶端位置!拥有5120个CUDA核心、640个Tensor辅助核心,核心面积达到了815平方毫米,集成了210亿个晶体管。作为Tesla P100的升级产品,Tesla V100同样拥有有两个不同的版本:一个是支持NVLInk,一个是支持PCIE。
NVLINK的优势在于:
(左边是PCIe版本规格,右边是NVLINK版本规格)
但是NVLINK技术只局限于某些系统,比如NVIDIA的DGX系列产品和IBM Power系统。前一阵子NVIDIA 发布了工作站系统DGX Station,让很多高端用户垂涎。
在一个适合桌面的小型机箱中包含四块Tesla V100 GPU、NVLink互联技术、20480个NVIDIA CUDA core,这一切共同造就了500 TFLOPS的超强深度学习能力。
Tesla V100 PCIe版本GPU卡的市场销售价格已经妥妥地超过6万(只是GPU卡哟,系统可以没有算在内)。NVLINK版本的价格不得而知,因为你单买回去没什么卵用,必须是搭配NVIDIA指定机型,比如上面说的DGX Station。这款NVIDIA为深度学习训练度身打造的系统,全套含4张GPU卡的售价超过约50万人民币(每年还要缴纳15%服务费),不过据说教育用户还有折扣。
当然用品牌GPU服务器搭配Tesla V100 PCIE来使用也不丢人,都属于金字塔尖端用户。
Tesla P100 和Titan V互相鄙视
Tesla V100鄙视Tesla P100不用说了,果断鄙视!光V100有Tensor Core(虽然是1代的),就可以鄙视了。
Tensor Core实际上是一种矩阵乘累加的计算单元。矩阵乘累加计算在Deep Learning网络层算法中,比如卷积层、全连接层等是最重要、最耗时的一部分。Tensor Core是专门针对Deep Learning的应用而设计的专用ASIC单元,可以在一个时钟周期内实现两个4×4矩阵的乘法以及与另一个4×4矩阵的加法。整个计算的个数就是我们在一个时钟周期内可以实现64次乘和64次加。
记得一点:TensorCore对于深度学习用途很大,需要到计算能力7.0的Volta才有,而Tesla P100是计算能力6.0的Pascal。
那么问题来了,Titan V正好就是计算能力7.0的Volta,所以虽然它跟Tesla P100一样都是有200%(通用的SP),但Titan V多了800%(专用的Tensor Core)——都是跟标准速率(单精度速率, 或者部分整数速率, 或者跟按位逻辑运算速率)比较的,括号里面的这些速率一般认为是100%..
注意Titan V和Tesla P100都具备双精度浮点计算能力,但是Titan V没有ECC校验,而Tesla P100是有的——毕竟Tesla P100血统高贵,是真真儿的Tesla卡啊,足以鄙视所有非Tesla卡。
目前市场上Tesla P100相较Titan V价格要贵2万人民币左右。
因为散热方式的问题,Tesla卡是用在机架服务器上,而Titan V是可以用在工作站上的。Lady我一直在强调不要在工作站上使用Tesla卡。
RTX2080ti鄙视GTX1080ti
本月NVIDIA发布了新一代图灵架构的GeForce RTX2080ti/RTX2080卡
图灵架构的GPU为何强大,我们之前的文章里有分析过为什么说NVIDIA推出了史上最强的GPU?
有了Tensor Core的加持,让RTX2080ti绝对有资本鄙视GTX1080ti。有传言说RTX2080ti的中国区销售价格会是9999元人民币,那么相对近8000人民币的GTX1080ti,那真的算是加料不加价。
而且根据以往的经验,新架构的GeForce卡出来,旧架构的卡就会退市了,所以如果不是马上采购,只是在做预算的,一定要考虑这一点。
如何选择深度学习适合的GPU卡?
之前经常看到有人在群里问:我在犹豫到底是买Tesla P100,还是买Titan XP.....
Lady我的建议从几个方面入手:
1. 采购预算是多少?
型号 | 参考价格(含16%增值税) |
---|---|
Tesla V100 PCIE版 | 63000元 |
Tesla P100 PCIE版 | 45000元 |
Tesla P40 | 45000元 |
Titan V | 25500元 |
RTX2080ti | 还未正式上市 |
GTX1080ti (公版) | 8000元 |
你会看到买Tesla卡,还是买Titan卡,完全不是性能说了算,而是你的预算说了算。
2.你的使用环境是什么?
你是在机架服务器上使用?还是在工作站上使用?
如果你在工作站上用,基本不要考虑Tesla卡。
机架服务器最好是有专用机房,因为散热的需要。
3.你的使用场景是什么?
你是用来跑算法、做研究?还是用来生产?
如果是深度学习训练的数据中心场景,那就得上机架服务器,并用专业的Tesla卡,确保计算稳定性;
如果只是自己研究学习跑代码用,工作站和机架服务器都可以,而对于GPU卡的选择就参考第一条和第二条。