Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一台优秀的GPU服务器是什么样子的?

一台优秀的GPU服务器是什么样子的?

作者头像
GPUS Lady
发布于 2019-12-10 06:25:32
发布于 2019-12-10 06:25:32
7.5K0
举报
文章被收录于专栏:GPUS开发者GPUS开发者

到年底了,又到了各大高校开始动手采购GPU服务器的时候到了,最近不少学生在QQ上请我们帮忙看看配置

对此,我们觉得还是有必要写个文章来说一下如何配置一台GPU服务器

用途要清晰

在配置一台GPU服务器之前,你首先要明确一下: 我买这台GPU服务器到底要干什么?

你是做科学计算?还是做深度学习?

你是做研究?还是做生产(比如你是要拿来运营GPU数据中心的)?

关于集群

做生产用的,就是搭建GPU数据中心,一般都是上集群,有专门的机房,这类用户一定需要机架服务器,GPU卡一定是用Tesla卡。如果你用机架服务器搭游戏卡,我只能呵呵,从这配置上就不专业好吧(挖矿的用户一定表示不服)。

既然是集群用,数据存储、Infiniband网络基本一个都不能少,经费充足,又希望得到NVIDIA原厂技术支持,那么显然是采购NVIDIA DGX系列服务器。目前一台DGX-1机架服务器价格在70万-90万之间(注意有分教育价格和非教育价格)。具体规格我不在这里说了,大家可以去NVIDIA官网搜索一下相关资料。

你的DGX集群规模越大,越能召唤NVIDIA工程师给你干活!(一般人我都不告诉)

采购DGX系列服务器需要向具备NVIDIA NPN资格的分销商咨询,比如浪潮、联强、宝德、思腾创新等。他们相对应的NVIDIA销售资源丰富一些。

如果预算不是那么多,那么我还是建议采购品牌服务器为主,并且是向有丰富集群建设经验的系统集成商采购,这样你的负担会小很多,我也经常在QQ 群里遇见采购个小集群,然后经销商只管按照用户列的配置卖,不帮你装环境,什么都不管,然后学生痛苦地配置集群环境。(弱弱吐槽一下一般经过学校招投标杀低价后,很多供应商都是只会按照配置卖,其它什么都不懂的)——基本上我建议向浪潮、惠普、Dell等有集群经验的供应商采购。采购之前要跟他们了解一下过去是否有集群搭建经验 ,尤其是环境配置,所以最好是把这一条放到招标文件里。

再也不需要为配置Tesla 深度学习服务器发愁了,NVIDIA早就为你准备好了...

一般来说高校研究单位买GPU服务器是用来研究学习用的。我们主要谈谈这一部分。

单精度or双精度?

这个问题也很重要!

一般来说做科学计算的用户对双精度(FP64)计算要求高,

深度学习或者神经网络的用户来说对双精度计算要求不那么高,单精度(FP32)计算就可以了。

关于什么是单精度、双精度,可以看一下这个文章(科普 | 单精度、双精度、多精度和混合精度计算的区别是什么?

如果你对双精度计算要求高的话,那么你就只能买Tesla卡了。目前市场上可以买到的具备双精度计算能力的Tesla卡就是Tesla V100和Tesla P100:

(注意现在销售的主要是32G显存的Tesla V100)

有哪些主流的科学计算是可以利用GPU加速?这一篇让你看明白!

NVIDIA Tesla V100在高性能应用中到底有多强?一文让你知道

【资料学习】我到底拿什么说服老板采购Tesla V100!

Q:预算够买Tesla卡么?

经常遇到老师问能推荐一款2万以内的支持双精度的Tesla卡么?

——还真的没有!32GB Tesla V100 行货的市场价格在6万左右,Tesla P100也要小3万.

Q:Tesla Tesla K80如何?

有经销售说还囤了点Tesla K80,但是Kepler架构过于旧了,你没有办法享受最新的CUDA功能给你带来的各种好处,也不支持INT8/FP16,真的不建议搞研究的老师采购,况且这个卡已经退市很久了,质保售后也是问题。

另外,CUDA在逐渐淘汰老计算能力的卡,以前是1.x计算能力被淘汰了,2.x计算能力被淘汰了(Tesla C20系列),现在虽然K80是3.x计算能力,但想来继续被支持也不会太久了。诸位老师难道要想辛苦的课题成果,很快就面临老平台不能使用,必须针对新平台(7.x计算能力)升级迁移的痛苦吗?

如果只是因为预算的问题要消费降级,真是不值得。

但是注意了!如果你选择采购Tesla卡,就一定要用机架服务器!这是正确的打开方式!

关注我们公众号的很多用户已经被我教育得知道散热很重要!即使如此我们的QQ技术群还是三天两头地有人说在工作站上装Tesla卡,跑着跑着就蓝屏....

当然我也知道有人会说“我就是在工作站上装Tesla卡,把散热做好就没问题“——确实如此,前提条件下是你确实做好了散热。

好了,接下来说只需要单精度计算的用户!

恭喜你,你选择很多,Tesla卡,RTX游戏卡你都可以选择了。而且实际上RTX单精度计算能力还真是优于Tesla卡(希望NVIDIA销售不跟老黄投诉我)。

工作站还是机架也随你挑,只要你不嫌弃机架服务器吵,你也可以任性地放办公室里。

在这里也不得不说我发现了一个奇怪的现象,就是Tesla的用户总喜欢在工作站上装,而RTX游戏卡的用户却喜欢在机架服务器上装,还一装装8个...

机架服务器不是不能装RTX卡,但是还是一个散热问题。我们不推荐用户装这种:

NVIDIA双风扇GeForce RTX散热器破坏多GPU性能,是真的么?

要装就装这种Turbo版本,可以装在机架服务器上,价格可以先去参考一下某东商城:

看ASUS ESC4000G4如何轻松装进4片RTX2080ti

很多深度学习的用户很喜欢用RTX2080ti、Titan RTX 。

这类的图灵卡,我们还是需要对它们的特性有所了解,这样在我们写代码的时候才可以把他们的性能发挥到最大。

NVIDIA RTX2080ti不支持P2P Access,这是真的么?

深度学习GPU卡性能比拼:见证Titan RTX“钞能力”

原来你是这样的GPU卡|NVIDIA发布新一代Titan系列:Titan RTX

例如这些卡具有新一代的互联能力,卡间互相数据访问的速度非常快的。但是却并不是每个机器都会给你配上NVLink。所以需要上P2P Access高速互相访问的代码,你在写代码的时候,要去判断能否卡间互相访问成功的, 如果不能,往往都需去添加上fallback的备用路径代码的。

接下来我们开始具体分析一下配置

CPU该如何选择

目前我看到很多人的配置,尤其是科学计算的用户,

基本上都是配置双路CPU,而且CPU往往都是频率最高,核数最多,

然后还上最大的内存条,插满所有槽。

不在乎钱的话,显然这样配置好。

在乎钱的话,可以节省一点钱的。特别是CPU的钱。CPU提供的PCI-E通道数足够即可。没必要双路,4路配满,主频最高型号的。因为实际应使用中的主力处理都是GPU,可能比你的CPU在特定问题上高出1-2个数量级的性能。此时是否升级到顶配CPU已经基本无意义了。除非你想糊弄老板,自己减少在GPU上的工作量,此时则可以考虑顶配CPU上满,从而减少自己往GPU移植的工作量。

有用户说因为预算有限,我先配置一个双路服务器,就上一颗CPU,但以后有预算了,我再加一颗CPU。

—— 这样做没有什么问题,但需要注意PCI-E的带宽上的分配,和PCI-E的拓扑结构。

1.有的主板默认是2个CPU管下面各自的PCI-E槽的,如果只插入1个CPU的话,可能部分槽无法使用。(但是这种主板的总PCI-E带宽高)。

2. 有的主板是默认1个CPU管所有的槽的,另外一个CPU只负责应用的运算。这种则没有影响,但是可能总的PCI-E带宽低。

此外,因为双路CPU实际上是2个内存域,往往双路的总内存带宽高,特别是对于渣代码来说(不管是纯CPU应用,还是CPU+GPU应用),可以有效的抵抗渣访存/传输,内存瓶颈所影响的性能。

我建议总是上2个CPU,哪怕是渣一点的(以后可以更换成更好的2个CPU,CPU跌价非常快的),这样总内存带宽更大,而总的PCI-E lanes数量也更高,很多场合有更好的性能。

内存条插满?

有个用户他准备插4片Tesla V100,内存是插满12根16GB的好,还是插6根32GB的好?

一般来说是是16G × 12好, 因为可以尽量利用所有的内存通道。只有6条的话,可能插不满2个U的所有通道的,而且插的时候还需要技巧,同样6条内存可能插出来高低不同的内存带宽的。但如果你插12条,16条,24条这种, 往往可以都插满, 此时无所谓插入的顺序的(例如是连续插入,还是隔着一条或者2条插入?), 都插满省心点。

只上少量的几条内存的话,因为你插的不好,有的通道利用了,有的内存通道没有利用,然后用户就会抱怨说,怎么同样配置的机器,我这个内存慢这么多。

我们曾经遇到一个用户,很大的图像,就插了单通道的内存,我们当时说,你们这算法卡访存的,你不妨先再添加插一个通道的内存,看看性能变化。

良心的厂商给尽量高性能的配置,无良的商家给你能点亮就不管了。

硬盘要做RAID么?

这要看主板的支持情况,和用户需要高性能,还是高稳定性了。 对于没有raid卡的主板,显然凉拌。而对于有raid卡的板子(不管是独立插卡还是集成的硬件卡), 则需要考虑raid卡支持的硬盘类型了。普通raid卡往往只支持SATA的硬盘和SSD。而好点的raid卡支持SAS的硬盘和SSD。

用户想高性能最好用后者,两块SSD做raid 0. 高可靠性我建议使用两块SAS机械硬盘。 此外,还应当考虑主板有无NVME硬盘的插卡地方。对io性能要求很高的,建议上nvme的ssd。

买的机器多的,或者一个小集群规模的,建议总是上专门的存储节点/网络(例如NAS或者SAN之类的),本地则可以用一两块SSD做数据临时目录之类的存储用途。其他数据全部放在存储节点上。

基本上就这些了

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-12-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GPUS开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
深度学习GPU卡鄙视链,你在第几层?
目前在售的NVIDIA Volta架构中Tesla V100处于深度学习GPU专业卡的最顶端位置!拥有5120个CUDA核心、640个Tensor辅助核心,核心面积达到了815平方毫米,集成了210亿个晶体管。作为Tesla P100的升级产品,Tesla V100同样拥有有两个不同的版本:一个是支持NVLInk,一个是支持PCIE。
GPUS Lady
2018/09/29
25.5K1
深度学习GPU卡鄙视链,你在第几层?
征战GPU服务器采购,DGX Station舍我其谁!(下)
昨天我们介绍了DGX Station开箱篇和接口篇征战GPU服务器采购,DGXStation舍我其谁!(上)
GPUS Lady
2019/04/29
2.4K0
征战GPU服务器采购,DGX Station舍我其谁!(下)
专业计算卡Tesla K80的正确打开方式
2014年年底,NVIDIA 再为加速运算平台增添旗舰级产品——Tesla K80 双GPU 加速器,专为机器学习、资料分析、科学和高效能运算 (HPC) 等广泛应用而设,提供2 倍效能和存储器频宽。
GPUS Lady
2018/03/30
23.8K0
专业计算卡Tesla K80的正确打开方式
深度学习装机指南:我们为普通青年和土豪准备了两套方案
深度学习,始于装机。 王新民 友情贡献 量子位 出品 | 公众号:QbitAI 研究深度学习该买一台什么样的电脑?我的笔记本能满足需求吗? 量子位请来小伙伴,为当前的深度学习网络训练提供了两套最新的装机方案。 第一套方案是预算为8000元的深度学习标准型台式机,这款台式机能够运行市面上几乎所有的大型游戏,完美全特效不掉帧,同时还可以顺便玩一下深度学习应用,例如奇特的风格融合。这套配置可以满足目前深度学习大部分的训练需求。 第二套方案是预算为20000左右的土豪版台式机,这款台式机为工作站主板,极其稳定,能够
量子位
2018/03/22
3.1K0
深度学习装机指南:我们为普通青年和土豪准备了两套方案
英伟达机器学习5大网红GPU卡
除了高性能计算,GPU自身具备的高并行度、矩阵运算与强大的浮点计算能力非常符合深度学习的需求。它可以大幅加速深度学习模型的训练,在相同精度下能提供更快的处理速度、更少的服务器投入以及更低的功耗。小编结合工作中客户咨询的经验,总结出英伟达5大热门机器学习用GPU卡。 第五名:Tesla K80   Tesla ——英伟达高端大气上档次专用计算卡品牌,以性能高、稳定性强,适用于长时间高强度计算著称。 Tesla K80 双GPU 加速器可透过一卡双 GPU 提供双倍传输量,内置24G
GPUS Lady
2018/03/30
10.5K0
英伟达机器学习5大网红GPU卡
5700刀打造3卡1080Ti深度学习机器
5700美刀,打造3x1080Ti实验室GPU深度学习机器 最近为公司搭建了一台实验用的深度学习主机,在网络上参考了大量的资料,给出了目前最好的配置。本文首先会介绍所有硬件的选择分析,然后介绍深度学习
用户1332428
2018/03/09
1.8K0
5700刀打造3卡1080Ti深度学习机器
深度 | 从GPU制造者到服务器提供商:英伟达的计算平台转型
这是一次巨大的转变,但对所有以计算为中心的平台供应商而言,这个过程终将——在某些情况下逐渐地发生。
机器之心
2018/07/30
1.5K0
深度 | 从GPU制造者到服务器提供商:英伟达的计算平台转型
黄仁勋从煤气灶下取出最新GPU:7nm全新安培架构,售价20万美元,训练性能顶6张V100
因为美国疫情的原因,英伟达和其他科技公司一样,把今年的GPU技术大会(GTC 2020)改成线上举行。
量子位
2020/05/19
9880
黄仁勋从煤气灶下取出最新GPU:7nm全新安培架构,售价20万美元,训练性能顶6张V100
如何配置一台深度学习工作站?
这篇文章主要介绍的是家用的深度学习工作站,典型的配置有两种,分别是一个 GPU 的机器和四个 GPU的机器。如果需要更多的 GPU 可以考虑配置两台四个 GPU 的机器。
AI算法与图像处理
2019/08/23
3.7K0
如何配置一台深度学习工作站?
深度学习工作站攒机指南
接触深度学习已经快两年了,之前一直使用Google Colab和Kaggle Kernel提供的免费GPU(Tesla K80)训练模型(最近Google将Colab的GPU升级为Tesla T4,计算速度又提升了一个档次),不过由于内地网络的原因,Google和Kaggle连接十分不稳定,经常断线重连,一直是很令人头痛的问题,而且二者均有很多限制,例如Google Colab一个脚本运行的最长时间为12h,Kaggle的为6h,数据集上传也存在问题,需要使用一些Trick才能达成目的,模型的保存、下载等都会耗费很多精力,总之体验不是很好,不过免费的羊毛让大家撸,肯定会有一些限制,也是可以理解的。
10JQKA
2019/05/15
9.7K2
无法获得NVIDIA H100 GPU时该怎么办?
11月20日消息,英伟达(NVIDIA)推出的“Hopper”H100 GPU是目前全球AI巨头极力争夺的“战略资源”,但是由于供应量有限,很多订单都已经排到了2024年。这也迫使一些AI厂商选择考虑其他替代方案,当然H100高昂的价格也是一个影响因素。
芯智讯
2023/11/20
5310
无法获得NVIDIA H100 GPU时该怎么办?
GPU服务器与CPU服务器的区别,如何选择GPU服务器
在搞清楚GPU服务器和CPU服务器的区别之前,我们先回忆下,什么是CPU?什么是GPU?
全栈程序员站长
2022/07/19
7.7K0
性能提升20倍:英伟达GPU旗舰A100登场,全新7nm架构安培出炉
虽然因为新冠疫情爆发,今年的 GTC 2020 大会也在最后时刻宣布转为线上,不过人们期待 7 纳米制程英伟达 GPU 的热情并没有消退。
机器之心
2020/05/19
1.3K0
性能提升20倍:英伟达GPU旗舰A100登场,全新7nm架构安培出炉
大模型与AI底层技术揭秘 (16) 从上海到苏州应该坐船吗
在上期,我们提到,在DGX A100中,由于CPU的PCI-E IO通道数少于GPU、RoCE网卡和NVMe SSD盘所需要的通道数量,工程师们设计了PCI-E Switch来实现PCI通道的扩展:
用户8289326
2024/01/02
3370
大模型与AI底层技术揭秘 (16) 从上海到苏州应该坐船吗
ASUS TS700-E9 高性能塔式服务器开箱
除了这8个3.5英寸硬盘位以外,ASUS TS700-E9在背面还有2个热插拔SSD硬盘位:
GPUS Lady
2020/05/07
1.6K0
年轻人的第一台服务器:最低不到五千,捡垃圾搭建自己的科学计算平台
Q:有什么需求? A:跑耗资源的科学运算。 Q:为什么捡垃圾? A:因为穷。 Q:怎么捡垃圾? A:全能的淘宝。
实验盒
2021/09/22
10.8K0
大模型与AI底层技术揭秘(小结-上)
目前IT行业的首要热点,也就是所谓的“大模型”和“机器学习”等AI技术,背后的算法,本质上是列出一个参数方程,并根据现有样本(参数方程的输入和输出),来迭代计算参数方程的参数,也就是所谓的调参。
用户8289326
2024/07/25
2880
大模型与AI底层技术揭秘(小结-上)
20万美元,最高提速200倍!黄教主烤箱掏出7nm安培芯片,GPU史上最大性能飞跃
推迟了2个月,北京时间5月14日晚9点,英伟达创始人兼首席执行官黄仁勋在自家的厨房里,“亮相”GTC 2020主题演讲会。他把这次的发布会称为,“英伟达史上首次Kitchen keynote(厨房发布会)”。
大数据文摘
2020/05/19
7650
20万美元,最高提速200倍!黄教主烤箱掏出7nm安培芯片,GPU史上最大性能飞跃
基于服务器部件标准化的弹性运营方案
"鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网络与服务器领域,规划、运营、研发、服务等层面的实战干货,期待与您的共同成长。 前言 随着互联网公有云业务的快速发展,特别是物理云等以提供物理服务器资源为服务平台业务的出现,造成越来越多的服务器机型配置种类需求,使原有的扁平化设备管理模型难以满足业务需求。另一方面由于国情的不同,国内大部分互联网企业服务器设备的使用年限并不限于3年维保周期,很多都接近或
鹅厂网事
2018/02/05
3.6K0
基于服务器部件标准化的弹性运营方案
深度学习GPU工作站配置参考
CPU要求:在深度学习任务中,CPU并不负责主要任务,单显卡计算时只有一个核心达到100%负荷,所以CPU的核心数量和显卡数量一致即可,太多没有必要,但是处理PCIE的带宽要到40。
Cloudox
2021/11/23
4.4K0
深度学习GPU工作站配置参考
推荐阅读
相关推荐
深度学习GPU卡鄙视链,你在第几层?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档