Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >腾讯数据中心冷源系统AI调优的应用与实践

腾讯数据中心冷源系统AI调优的应用与实践

作者头像
腾讯数据中心
发布于 2022-12-13 12:10:18
发布于 2022-12-13 12:10:18
2.8K0
举报
文章被收录于专栏:腾讯数据中心腾讯数据中心

摘要

2022年11月9日-10日,第十届数据中心标准峰会在北京隆重召开,峰会以“汇聚双碳科技 夯实数据之基”为主题。腾讯数据中心高级架构师李鼎谦在本次峰会上以《数据中心冷源系统AI调优的应用与实践》为题发表云端演讲,现将精彩内容整理如下,供数据中心广大从业者学习交流。

以下为演讲实录

尊敬的各位嘉宾、同行,大家下午好!我是来自腾讯数据中心的李鼎谦。今天与大家分享腾讯数据中心在AI调优规模化应用中的一些实践经验和总结,也希望我们在一线项目上踩过的坑、排过的雷能给到大家有用的启发和思考。

AI商用化逐渐成熟,但尚未规模化应用

将AI用于数据中心的能效调优,并非是一项新技术,早在2014年,谷歌就发布了白皮书,通过神经网络算法结合运营优化,宣称将PUE从1.25降到1.14,这个降幅相当明显。8年过去了,在国家“双碳”政策、以及越来越严格的PUE监管要求下,AI作为节能神器又站在了风口。业界各大厂商也纷纷推出了各自商用化的AI节能解决方案,但这些方案都是单个项目的点状应用,没有大规模普及。

规模化应用面临的问题与挑战之一:安全成本

怎样才能让AI像BA系统一样大规模普及应用,真正助力于数据中心的节能增效?作为自建数据中心的业主,也作为租赁数据中心的用户,腾讯基于AI调优的覆盖和推广经验,认为AI规模化应用首要解决的问题是安全和成本,其次是数据的质与量。

首先,安全包括数据的安全、控制的安全和策略的安全。

数据的安全比较好理解,就像政府要求苹果、特斯拉的所有用户数据必须放在国内一样,数据中心的业主也会要求机房所有的运行数据,从采集、计算到控制,都必须在机房内完成闭环,一般不允许上云。

控制的安全。业内AI模型的精度一般在97%左右,即使在AI应用最成熟、最普遍的人脸识别领域,其准确度也大约只有99%,但数据中心的可用度一般是4个9,或者5个9,用97%精度的AI模型去控制99.99%高可用度要求的数据中心设备的运行,换谁都会有点不自信,会有所担心。

策略的安全。能耗不会凭空产生,也不会凭空消失,AI的节能,是在保证单设备运行安全余量的前提下,让系统运行的组合参数更优,就像是一个经验丰富的暖通专家时时在线,基于不断变化的工况不停模拟计算,在保证运营安全的情况下,最大程度发掘系统的潜力。

关于成本,数据中心的每个项目都是定制化的设计,AI一般又要求本地化部署,数据的清洗、模型的训练,都得一个一个项目挨着做,无法批量复制,投入的工作量多,成本自然不低。

规模化应用面临的问题与挑战之二:数据的质与量

阻碍AI规模化应用的第二大问题是数据的质与量。首先是数据的质,数据中心装有很多的传感器,包括温度传感器、压力传感器和流量传感器,考虑到建设成本,这些传感器一般达不到工业级的精度,比如温度传感器的精度普遍在0.5度左右,在运行几年又缺乏校准的情况下,偏差能到达1度,不过这对于BA系统的监控运行一般没有什么影响。但是对AI模型的预测来说,冷机的供回水温差通常只有5度,因此哪怕1度的偏差都将产生20%的误差。

数据中心通常有例行的巡检和维保,设备在长时间运行后,性能会劣化,但维保和维修能让设备性能重新得到优化,而这种短时间内的设备性能突变,会导致模型预测精度下降。数据中心的数据其实大而不全,机房的设计一般是2N或者N+1,设备的负载率一般在30%到60%区间,这样就导致机房虽然有海量的数据,但大部分是重复的局部运行数据,缺少靠近边界的轻载或满载数据,机器学习也只能对这些工况做样本外的预测,这样容易导致预测精度不高,甚至存在负逻辑的风险。

应对挑战,腾讯数据中心AI规模化应用的“三板斧”

数据的问题还有很多,比如从多个系统采集导致数据不齐和数据偶发中断等。如何解决这些问题,让数据中心的运维人员可以放心地使用AI呢?腾讯数据中心的AI平台,基于多年的实践和探索,总结出了规模化应用的“三板斧”。

首先,在建模上采用了基于物理机理的设备和系统建模思路,让AI模型可以像水路拓扑图一样被理解和呈现出来。其次,在软件设计上采用了安全沙箱机制,让AI模型始终运行在安全沙箱设定的参数边界以内,从而让AI从“黑科技”变成“白科技”。最后,基于腾讯智维的数据仓库和模型仓库,做到了让算法可被插拔替换,从而AI模型可以被快速的迭代,进行敏捷的开发。

机理模型——设备级建模

首先看建模,冷源系统设备包含四大件,冷却泵、冷冻泵、冷却塔还有冷机,泵和塔的风机物理原理是一样的,都是变频器带动电机,都会满足功率与流量(风量)的物理公式。此外,根据工程经验,泵的流量与转速是成正比的,泵的功率与转速的立方是成正比的,因此可以根据物理关系拟合出水泵的频率和功率的表达式曲线,它的特点是在少量的样本之下,可以得到全局的预测曲线,趋势性好,不会出现“反逻辑”。

第二是冷机的建模,冷机是冷源系统的核心部件,也是将所有参数联系起来的桥梁。腾讯基于ASHRAE推荐的冷机功率物理计算公式,快速选定了神经网络模型的输入因子,并通过历史运行数据分析,得到了每个因子的权重,从而获得了比较高的预测准确性。

机理模型——传统的系统仿真模型

有了设备的模型之后,如何进行系统级的建模呢?这比较讲究,也比较关键。首先来看,在没有AI的时候,我们暖通工程师如何做水冷系统的仿真建模?

这是一款基于多学科仿真软件做的水冷系统的仿真模型,有点像BA里面水冷系统的组态图,该软件可以做流体、控制、热力学的协同仿真。它首先建立了设备级的仿真模型,将设备的输入、输出按照实际的水流流向和能量传递方向耦合起来,比如说冷却塔的出水就是冷机的进水,流量其实是由冷却泵决定的,这样的闭环之后就可以看到冷却水的水温,冷冻水的温度随IT负荷变化而变化的仿真曲线。

它的优点是跟现场实际运行的组态图是相符合的,也容易被工程师掌握和理解,缺点是精度不高。根据经验,精度不高的原因主要是两个,第一点,冷机作为核心部件,使用方一般拿不到冷机设备的核心参数,导致建模不是很精确。第二点,数据中心的现场管路布置比较复杂,做不到精确的阻力计算和测量,所以综合下来导致它的精度不是很高,大概在85%左右。

机理模型——AI系统级建模

腾讯AI系统的建模其实也是借鉴了这个思路,按照工程人员最容易理解的水路拓扑图的方式,将设备模型串联起来构成冷源系统的系统模型。从环境温度、冷却塔频率、冷却泵频率,以及制冷负荷,可以得到冷却塔的逼近度温度模型,逼近度加上湿球温度就可以得到冷却塔的出水温度,冷却塔的出水温度就是冷机冷却侧的进水温度。冷冻侧的出水温度与末端送风温度关联,一般不会轻易变动,再加上IT负载,就可以做冷机的功率和制冷量的预测模型,这样一级一级的串联和耦合,就可以得到像一个BA组态图一样的系统仿真模型,从而方便的看到各个物理量之间的变化趋势和关系,这种方式很容易被工程人员、运维人员所熟悉和理解,使用起来也更加放心。

安全沙箱,让AI从“黑科技”变成“白科技”

要让运维人员能够放心使用,仅仅让模型可被理解是不够的。腾讯还通过安全沙箱的设计,做到了让模型可被控制,使AI从“黑科技”变成了“白科技”。安全沙箱其实是一种按照安全策略限制程序行为的执行环境。通俗的讲,它类似于一个战术演练沙盘,我们将AI的模型和算法都放在沙箱中去运行,从而保证所有的运行参数都在边界范围之内。具体来说,在采集到实时数据之后,会通过数据健康度的准则,对数据进行校验,从而自动清洗掉异常的数据、瞬态的数据。在策略计算时,会通过安全沙箱的寻优约束准则,使AI计算结果在约束范围之内。在调度中台下发控制命令时,所有下发到BA系统的参数还受到结果策略的约束。最下层还有一个硬逻辑的机制,当监控到现场运行的参数,碰到预先设置的边界时,会直接跳出AI算法,直接做出快速响应,类似于快速反弹的原理。安全沙箱所有的约束条件、配置,都可以开放给现场的运维专家。有了安全沙箱的机制之后,实现了AI逻辑受控和配置自由,数据进出得到了有效的管控,从而解决了数据中心的数据使用主体和执行主体的互信问题。

安全沙箱,“封装”可靠控制的三层模型

在系统架构的维度,安全沙箱还“封装”了可靠控制的三层模型。比如在架构层,我们对AI策略的硬逻辑兜底、对系统故障/告警的响应、对AI与BA切换的调度,都做了详细的思考。在策略层,对命令的范围和步长进行了限制,采取小步快跑的方式,减少对现场运行的扰动。在执行层,考虑舍弃超限命令以及故障自保持等功能。

安全沙箱——硬逻辑的开放与“兜底”

举例来说,硬逻辑兜底,是相对于AI计算的软逻辑来说,AI的计算寻优一般需要2到3分钟,这个时间对于应急的控制响应来说是较长的,硬逻辑就是检测到采集参数触碰到边界时,会跳出AI寻优,直接给出上一次运行正确的参数组合,或者是运维专家事先给出的一组参数策略,这个时间一般在1到2秒钟之内(即通讯协议的响应时间)。具体来说,安全沙箱可以对冷机冷却侧压差、冷机冷却侧最小流量、冷却水回水温度等参数进行全方位的监控和保驾护航。此外,硬逻辑也会开放给运维专家进行配置,通过此机制可以保证运行参数永远在运维人员的掌控之下。需要说明的是,硬逻辑也是一把双刃剑,如果硬逻辑过于严格,节能效果就不会那么好,这需要均衡考虑。

安全沙箱——故障/告警的协同机制

第二,故障告警响应策略。做一个系统,除了考虑正常工况,也得考虑异常工况的响应。BA擅长的是逻辑响应,AI擅长的是算法,腾讯的策略就是把AI和BA的优势结合起来,形成互补并达到最优的控制。

数据仓库和模型仓库,算法快速迭代

第三,模型可以被控制,但模型本身不能是一成不变的。机房的设备状态、运行环境在不断地变化,比如冬季和夏季的切换、冷却塔和冷机过滤网的清洗和维护等,在这种情况下,可快速迭代的平台架构设计,在规模化应用中就显得尤为关键。

智维AI平台在架构上建立了数据仓库和模型仓库,历史数据经过物模型测点标准化以后,通过提前设置好的清洗规则,能够自动进入到数据仓库。现场运行的实时数据经过驱动协议和健康度判断后,算法会自动调用模型仓库里的最新模型进行寻优计算,得出最优策略,再通过调度中台下发给BA系统。当然这背后还有一个模型验证环节,腾讯会以某个数据中心为样本,建立一个系统仿真的模型平台,在系统模型推送到实际应用之前,会先在仿真平台上经过测试,同时也可以让采取不同的方法搭建的AI模型,比如神经网络、强化学习、线性回归等,在仿真平台上相互PK,看谁预测得更准,更节能。

另一方面,腾讯也设计了包含各种异常场景和临界工况的测试数据样本集,从而测试模型在极端样本情况下是否符合数据中心的可靠性要求。基于这种开放式、仓库式的架构,腾讯AI模型可以进行远程的OTA升级,实现快速插拔替换和迭代。

基于项目经验,我们还了解到AI建模的数据清洗数据治理需要花费较多的时间,以后,智维平台的数据仓库在脱敏后,也会尝试向业界开放使用,为大家节省数据清洗的工作时间,在大家的共同努力下,我们才能将AI模型做得更好,应用得更广。

AI项目应用调优效果示例

通过腾讯总结的三板斧,腾讯的AI调优平台在南方某数据中心水冷系统的应用中,综合模型精度达到了97%以上,其中与电相关的预测精度会更高一些,与制冷量、温度相关的预测精度会偏低一些,但平均在97%左右。从节能效果来看,由于AI可以获取到数据中心全量的运行数据,相比只有冷源侧数据的传统BA控制,PUE在同等工况下有明显的下降,该试点机房即便是在原有年均PUE 1.25,已经调得较好的基础上,还能再有5%~10%左右的优化空间。

总结

基于腾讯AI调优的应用和推广实践,腾讯认为,AI大规模推广复制的关键因素不在于AI模型的各种算法,而在于如何做到安全可靠的控制,以及如何解决真实物理对象和数据点的非标准化问题。安全可靠是1,节能优化才是后面的0,守住安全可靠的底线,后面的节能才会有意义。

因此,腾讯通过物理机理模型,让AI可以被更好的理解和使用;通过安全沙箱,能够发挥专家的经验,让AI可以被掌控,不再是一个“黑盒”;通过腾讯智维平台的数据仓库和模型仓库,让AI模型能够被快速迭代,从而做到敏捷开发

其次,数据中心是一个极高可靠性应用的场合,一般的AI方法都是基于大数据来驱动策略,腾讯认为,在数据中心应用场合中,AI应该以物理机理和专家经验驱动为主,AI为辅,让AI永远运行在专家经验划定的范围之内。所以在实际项目的推进过程中,我们需要腾讯数据中心经理和现场暖通运营专家一起配置AI的安全沙箱,划定AI运行的“红线”,同时,AI寻优策略也会将现场暖通专家实践过的调优经验优先“置顶”,让AI像一个时时在线的经验丰富的暖通专家,为数据中心的安全、节能运行保驾护航。

未来,腾讯会专注于AI在数据中心机房的批量化覆盖,目前的存量机房调优,还是采用AI和BA打补丁叠加的方式,采用传统的金字塔架构,由AI和BA两个独立的系统,通过协议交互数据。在今后的新建机房中,我们将考虑摆脱原系统束缚,和主流BA厂商一道采取开放式扁平架构,实现OT系统与IT系统的原生融合,进一步的降低成本,提高可靠性。

此外,随着AI覆盖更多机房模组,我们将会获得更多数据、更优的AI寻优策略、更完善的数据仓库和模型仓库。我们也计划开放脱敏后的数据仓库和仿真平台携手业内的合作伙伴和专家同行,为数据中心AI节能的推广应用和国家的“双碳”目标贡献自己的一份力量!

以上是我今天分享的内容,谢谢大家。

(封面图片转自CDCC)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-12-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯数据中心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
深度剖析Google数据中心如何利用神经网络压榨PUE——下
理论模型与实验结果高度吻合 综前所述,可通过控制变量法建模仿真,从而得知各个运行变量参数对数据中心PUE的影响。这种灵敏度分析被用于评估某一参数变化带来的影响,并用于确定其最佳的设定值。下面的这些所有测试结果已被实际得到了验证。 图8(a)IT负载和PUE之间的关系 图8(b)运行冷机数量和PUE之间的关系 图8(a)展示PUE和服务器IT负载之间的关系,在0%到70%负载范围内PUE值快速降低。但在70%以上负载范围时PUE值却逐渐平缓。这个特点也在Google数据中心的历史PUE数据中得到验证: 由
腾讯数据中心
2018/03/16
2K1
深度剖析Google数据中心如何利用神经网络压榨PUE——下
如何避免数据中心冷却水缺水?
导语 冷却水在制冷系统中起到十分重要的作用,是冷量传递的媒介。冷却水系统如果发生缺水现象,会产生严重的后果,轻则导致空调送风温度升高,重则导致冷机停机,甚至导致服务器宕机。为了保证数据中心安全平稳运行,腾讯某数据中心经过多年运营经验,采取报警+维保+巡检多管齐下,避免冷却水缺水现象的发生。 1.报警 冷却水系统出现缺水问题首先会触发一些先头报警,先头报警出现后可能会触发其他相关联报警,另一方面,这些相关联报警如果发生,报警的原因之一可能是冷却水缺水问题,二者存在相互关联的关系。 先头报警&可能触发的其
腾讯数据中心
2018/03/16
1.4K0
数据中心 PUE 优化模型生成服务:AI 浪潮下的数据中心的省钱攻略,就用这几招
一般来说,数据中心 3 年的电费可以再造一个数据中心,因此节电是数据中心的一个永恒的话题。传统的节电技术基本已经触及到了天花板,AI 节电是现在以及将来的技术趋势。AI 调控的是数据中心制冷系统,不仅要控的好能节能,还要控的安全。本文我们将分享华为 NAIE 数据中心 AI 节能技术,以及如何支持技术在不同局点的复制。
白鹿第一帅
2022/04/13
1.4K0
数据中心 PUE 优化模型生成服务:AI 浪潮下的数据中心的省钱攻略,就用这几招
腾讯青浦二期数据中心为啥得到了USGBC的青眼?
2019年10月11日,全球知名绿色认证组织USGBC(美国绿色建筑委员会),以及旗下的绿色数据中心委员会等多个机构的业内专家应邀前往腾讯青浦二期数据中心,共同见证了其运营成果:在诸多节能措施的作用下,腾讯青浦二期数据中心实现了年度PUE值为1.29(2018年1月1日-2018年12月31日)。最低的月度PUE值达到1.24,最热月度PUE值控制在1.33以下。 注:美国绿色建筑委员会(USGBC)是目前全球最具影响力的绿色建筑组织之一,它致力于推动全球建筑行业的绿色化进程。其推出的LEED认证体系是当
腾讯数据中心
2019/10/17
8721
腾讯青浦二期数据中心为啥得到了USGBC的青眼?
三大谷歌欧洲数据中心究竟如何做到100%自然冷却
分析谷歌公布的这些图表(a)、(b),纵向看,它在全球各地的多个数据中心 PUE 控制都已游刃有余;横向看,PUE曲线波浪向下,说明谷歌数据中心的运营仍在逐步改进、不断优化,这种运营是长期的精细化调优的过程。这些图表的另一个显著信息是,其各个数据中心的 PUE 有着一个规律的生物钟,不管是以季节,还是以天、小时为时间颗粒度单位,都表现出较大的波动性规律。这说明 Google 数据中心的自然冷水平高超。它基于室外自然环境温度,尽量利用外界冷源带走热量而不启动机械制冷,在散热方面只给够用的冷量,躬行节俭。
腾讯数据中心
2018/03/16
2K0
三大谷歌欧洲数据中心究竟如何做到100%自然冷却
上海数据中心要求PUE小于1.3,怎么办?-孙长青
1、事件背景 《上海市推进新一代信息基础设施建设助力提升城市能级和核心竞争力三年行动计划(2018-2020年)》的通知,引起了数据中心基础设施圈内各个层面的人热烈解读,从中,有人看到希望,有人看到了危机,有人看到了数据中心发展的趋势,有人看到了上海有关部门对数据中心的态度。 其中有一段话,深深的吸引了大家的眼球,是关于基础设施的要求:推进数据中心布局和加速器体系建设。统筹空间、规模、用能,加强长三角区域协同,布局高端、绿色数据中心,新建机架控制在6万个,总规模控制在16万个。推动数据中心节能技改和结构调整,存量改造数据中心PUE不高于1.4,新建数据中心PUE限制在1.3以下。开展计算资源布局规划和资源配置方案研究,实施技术试验及模式研究。依托数据中心布局,建设基于中央处理器(CPU)、图形处理器(GPU)等的计算中心,面向人工智能的计算加速资源占新增数据中心机架总量的50%。 其中最让人揪心的,是新建数据中心PUE限制在1.3以下,这个数值代表什么,对数据中心行业熟悉的人们都心里有数,那是上海有关部门对节能的极致追求,如果按照传统的成熟方案进行设计,几乎是不可能达到1.3的要求的,那就是要逼迫从业者采用更加有效的节能方案。 由此,可能给全国数据中心行业带来一次节能技术的革命。 2、PUE的前世今生 首先,让我们来看看PUE的由来,在2007年的时候,美国绿色网格(The Green Grid,IT专业人士的非营利性贸易组织,旨在满足数据中心和整个信息服务交付生态系统的电力和冷却要求,不支持任何特定于供应商的产品或解决方案,提供有关旨在提高整体数据中心效率的最佳实践,指标和技术的建议。)为了更好地了解和提高现有数据中心的能效,认识到建立数据中心效率指标的重要性,并由此为提高每瓦性能的技术指导提供理论支持。理想情况下,这些指标和流程将有助于确定在需要新数据中心之前是否可以优化现有数据中心。由此,提出了PUE的概念,即Power Usage Effectiveness(能源使用效率),从那时起,PUE已在业界得到广泛采用。 下面来看PUE的定义:能源使用效率,数据中心IT设备和配套基础设施的电量或能量和除以由设计人员按企业采用的标准计算获得的IT设备电量或能量之和。业内一般通用的,多指整个数据中心包括IT设备和配套基础设施的年耗电量除以IT设备年耗电量。 PUE计算公式如下: PUE =机械负载系数(MLC)+电气负载系数(ELC)+ 1.0 这里所有因素都是按IT负荷除以的比率: •1.0表示标准化的IT负载。实际上,这是IT负载因子(ILF),但始终为1.0。 •机械负载系数(MLC)是制冷设备、泵、风机等消耗的总能耗除以IT能耗,如下:
数据中心DATACenter_PUE-POE
2019/08/20
4.5K0
上海数据中心要求PUE小于1.3,怎么办?-孙长青
致敬经典——腾讯第三代数据中心
序言 伴随着腾讯业务的不断发展壮大,腾讯数据中心走过了21年的光辉历程,期间不断地推进了数据中心技术架构的迭代和升级。为了适应海量服务器快速、低成本的部署和运营要求。早在2012年,腾讯就推出了第三代数据中心架构——微模块架构。经过八年的应用实践和优化完善,微模块技术架构已经发展成为数据中心行业的主流技术;为腾讯第四代T-Block技术架构升级奠定了坚实的基础。本文将从运营实践的视角带领大家去回顾腾讯第三代数据中心技术的最佳实践。 什么是微模块? 微模块(Modular Data Center,MDC)是
腾讯数据中心
2020/10/19
3.7K1
冷却水泵变频节能分析与实证
濒临秃头运营组(8) 萌新小运维 老斯基,冷却泵变频设计可以实现节能吗? 小Q老斯基 对比我们此前介绍的冷冻泵变频节能分析,相信大家心里隐约有一些答案。 萌新小运维 但有人说冷却水泵降频会使冷机功耗增加,得不偿失,是这样的吗? 小Q老斯基 别着急,今天我们将通过理论计算以及实际运营数据来综合分析。 可滑动屏幕查看对话哟 【关联阅读】 1. 御水而行,点水成金 2. 冷冻水温度提升与节能分析实证 序言 冷冻水系统节能优化是个系统工程,牵一发而动全身,一个参数的变化可
腾讯数据中心
2020/09/07
4.9K0
深度剖析Google数据中心如何利用神经网络压榨PUE——上
互联网的飞速发展拉动了对大规模数据中心的胃口,同时也带来能耗的巨幅上升,目前数据中心的能耗已经超过了全球能源使用量的1.3%。Google的数据中心以高能效著称,通过创新的市电直供、热空气隔离、水侧节能等技术和大量的运营优化,PUE达到了令人称奇的1.12领先水平。 “压榨PUE不停歇” 但是他们“贪心不足”,在新加坡举办的Datacenter Dynamics 2014会议上,Google数据中心副总裁Joe Kava和天才小子Jim Gao介绍了Google是如何利用机器学习和人工智能进一步改进数据中心
腾讯数据中心
2018/03/16
2.3K0
深度剖析Google数据中心如何利用神经网络压榨PUE——上
天津数据中心群英传——之呼风唤水篇(上)
开天辟地: 在距离腾讯总部较远的北方城市天津,有一座规模庞大的“城堡”,她就是腾讯迄今为止最大的自主规划、设计和运营的数据中心——天津数据中心。 天津数据中心共4栋楼,总建筑面积8万多平米(约11个足球场面积),满载可容纳20万台服务器,为华北地区乃至全国提供全方位综合服务,其规模之大、分量之重当屈一指。 在这座规模罕见的“云基地”里,深居着数以万计的服务器和网络设备,她们日夜不停地工作,承载着公司的核心业务。在这些服务器的身后,同样也隐居着另外一个规模庞大的家族,她们隐姓埋名,默默无闻地为这数以万计的服务
腾讯数据中心
2018/03/16
1.1K0
天津数据中心群英传——之呼风唤水篇(上)
积水成渊——数据中心用水效率分析
引言 现在人们一提起数据中心,首先想到的关键词是PUE(数据中心电力使用效率的衡量指标),由此可见人们对数据中心电力资源的重视程度。而另外一种资源——水,却往往被人们所忽视。 水,在维基百科中有这样一句解释:“水(化学式:H2O)是包括人类在内所有生命生存的重要资源,也是生物体最重要的组成部分”。水也被称为人类生命的源泉。 同样,对于数据中心来说,水好比人的血液。水出了问题的数据中心是无法正常运营的。那么,在数据中心有哪些地方会用到水呢?接下来我们以腾讯某数据中心为例做详细说明。 腾讯某数据中心用水项分析
腾讯数据中心
2018/03/16
3.5K0
积水成渊——数据中心用水效率分析
京东自建数据中心核心技术解密——基础设施篇
京东第一个自建数据中心是位于宿迁的京东云华东数据中心,整体由4个模块和1栋综合大楼组成,总占地面积将近6万平方米,总投资30亿元。 可以提供20万台的服务器安装和运营能力,存储能力不小于32EB,计算
京东技术
2018/04/10
2.9K0
京东自建数据中心核心技术解密——基础设施篇
腾讯天津数据中心余热回收应用初探
引言 随着人工智能、云计算,大数据等信息技术高速发展,大型数据中心不断涌现。当前全球数据中心数量已超过400万个,其中超大数据中心已超过500个;预计2020年,全球数据中心耗电量将占全球总用电量的5%;截止2018年底,中国数据中心服务器装机量为1200万台,国内数据中心总耗电量高达613亿度。如何在高能耗数据中心寻找节能空间,缓解当前社会能源需求紧张,促进全球能源合理利用,是数据中心从业者不断探索的方向。本文以腾讯天津数据中心为例,介绍余热回收原理及其成熟应用方案,秉持“科技向善”的愿景,提出数据中心
腾讯数据中心
2020/01/03
5.9K0
腾讯天津数据中心余热回收应用初探
数据中心蓄冷系统选择-孙长青
摘要:在数据中心的大型空调水系统中,为了达到连续制冷的功能,采用的措施主要是蓄冷技术。在Uptime 对于T4等级的数据中心要求里,明确要求了连续制冷功能;在其他规范和标准里面,对于这个功能没有明确而具体的要求。但针对非有计划的失电时,仍然需要保证空调系统提供正常冷却功能的数据中心来说,设置蓄冷系统不失为一个既技术可行又经济的选择。那么,到底选择什么蓄冷形式适合作为数据中心的蓄冷系统呢? 关键词:数据中心 水蓄冷 冰蓄冷 蓄冷罐 一次泵 二次泵
数据中心DATACenter_PUE-POE
2019/08/20
1.3K0
数据中心蓄冷系统选择-孙长青
数据中心蓄冷罐放冷演练
背景介绍 蓄冷罐顾名思义是用于蓄冷的设备。其原理是通过媒介将数据中心空调系统运行中的富余冷量进行储藏,在需要时再将冷量释放出来。 某夜, 腾讯某数据中心进行了一期蓄冷罐放冷演练。此数据中心一期的冷水机组中有高压冷水机组和低压变频机组;根据现有的负荷开一半冷水机组已满足负荷需要,关闭的冷机处于备用状态。 1. 演练目的 通过进行蓄冷罐放冷测试,测试空调系统设备存在的隐患,使现场人员更好的熟悉应急预案及了解应急预案的实施性、可行性,缩短突发故障处理时间,确保数据中心运营安全;也可以测试运维人员熟练程度,提高运维
腾讯数据中心
2018/03/16
2.4K0
数据中心蓄冷罐放冷演练
集腋可否成裘?——浅谈IDC余热利用
如果把数据中心视作一套规模巨大的能源转换的设备,它在能量转化的过程中会释放出大量的余热。逾98%的电力损耗变成了低质量的热能,那么这些余热是否可以再利用,又如何利用呢?
腾讯数据中心
2018/09/04
5.4K5
数据中心并联冷机负载不均案例分析
制冷冷机为数据中心提供冷量,是保证数据中心安全有效运行的核心,但是在实际冷机运行过程中,常常会出现并联引起负载不均衡的问题,如果处理不当,可能引起冷机停机,数据中心供冷中断,威胁数据中心的安全运行。 一、某数据中心冷机负载率不均案例回顾 某数据中心某时机负荷偏大问题的发现及解决回顾: 第一周 某数据中心3、4号冷机并联运行期间,4号冷机的负载率比3号冷机高20%以上,且为持续现象。 第二周 某数据中心机切换到1、2号冷机之后,联合冷机厂家对冷机冷凝器做了通炮(即拆开4号机的冷凝器端盖板,清洗内部的铜管水路)
腾讯数据中心
2018/03/16
1.6K0
数据中心并联冷机负载不均案例分析
“电老虎”数据中心,AI如何发挥作用?
在过去几年,一座座数据中心拔地而起,大规模的服务器串联而成的计算系统支撑了海量的数据处理和运算。数据中心机架数量由2016年的124万架上升至2019年的227万架,四年间上涨了83.1%。
科技云报道
2022/04/16
4230
“电老虎”数据中心,AI如何发挥作用?
腾讯数据中心制冷节能的十八般武艺——下
(本文内容接《腾讯数据中心制冷节能的十八般武艺——上》) (备注:图片带播放图标的均有视频介绍,视频链接为: http://v.qq.com/vplus/51389fdde8883a85bcfe344f11a106c5/foldervideos/em6000001jms4px, 视频搬运来自youtube) 三、数据中心制冷节能技术现状与趋势 1、海水自然冷却,位置为功能服务 Green Mountain Data Center: 位于挪威西南角,常年利用8℃的深层海水(75米以下),对数据中心进行制
腾讯数据中心
2018/03/16
1.9K0
腾讯数据中心制冷节能的十八般武艺——下
首台自主创新全空冷机组在三峡运行,图扑数字孪生机体
采用全空冷系统的三峡右岸电站26号机组,是目前世界上采用全空冷技术的最大容量等级发电机组,并且结构布置简单、运行可靠、安装维护方便、成本低。全空冷系统区别于水冷系统,是指对水轮发电机的定子绕组、铁心和转子绕组均采用空气冷却方式的发电机冷却系统。
数字孪生
2022/08/29
6020
首台自主创新全空冷机组在三峡运行,图扑数字孪生机体
推荐阅读
相关推荐
深度剖析Google数据中心如何利用神经网络压榨PUE——下
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档