前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >FRE的扬帆启航——腾讯数据中心设施运营开发模式初探

FRE的扬帆启航——腾讯数据中心设施运营开发模式初探

作者头像
腾讯数据中心
发布2023-02-13 18:32:30
9650
发布2023-02-13 18:32:30
举报
文章被收录于专栏:腾讯数据中心

导语

腾讯数据中心致力于为用户及业务提供高可靠、低成本、智能及技术领先的数据中心设施服务。在过去的2022年里,腾讯数据中心运营加快了向自动化、平台化转变的步伐,我们经常会听到了一个新的名词“FRE”。FRE究竟是什么?它如何推动传统设施运营与线上运营平台结合?在探索数据中心自动化运营实现路径上思考了哪些内容?今天我们就来详细介绍FRE的前世今生、演进思路和方向,以期更好地推动FRE扬帆启航。

 01

 FRE——What?

图表 1 FRE能力模型

FRE(Facility Reliability Engineer)基础设施可靠性工程师,是腾讯数据中心总结了数十年的数据中心运营经验,将传统数据中心设施运营结合线上化、自动化和智能化运营推出的新的运营模式,也是新运营模式对数据中心运营人员的能力模型提出的新要求。

谷歌在《SRE:Google运维解密》中阐述了SRE工程师如何对软件进行生命周期的整体性关注,打破了传统的运维与开发的界限,使运维与开发团队紧密的融合在一起。同样,FRE模式也是突破传统的设施运营与运营系统开发的界限,使之紧密的融合,并且对传统设施运营模式的内涵做了大规模的扩展。传统设施运营人员立足于现场,核心能力是数据中心运维技术,同时具备运营管理和项目管理能力。新时代的FRE数据中心运营模式,对数据中心运营人员的能力要求,除了根本的数据中心运维技术外,更侧重数据分析能力、业务流程的设计能力以及低代码开发能力。

 02

FRE——Why?

图表 2 传统模式下运营和开发的协作问题

数据中心设施运营的线上化、自动化、智能化是依赖运营平台上的各种流程和工具。传统开发模式是:运营团队提出需求,由产品经理负责流程和产品设计,研发团队进行代码开发、测试和部署交付。传统开发模式下开发团队与运营团队业务目标和关注重点是不一致的。开发人员关注在开发技术并不能深入理解运营业务场景,也不会实际去使用这些流程和工具,开发出来的流程和工具与运营人员实际想达到的效果会有差异;二是数据中心的运营工作是一个需要长期运营和优化的,在这个过程中需要大量对流程和工具进行功能新增和修改,而研发团队在不同时间只能专注于某一个业务场景。

我们经常见到产品和开发团队抱怨平台功能推动落地困难,而运营团队总是说新功能不好用。这种开发与运营的矛盾在业界是一个普遍问题,Devops的方法论为破解这个矛盾提供了思路,而FRE正是在数据中心设施运营与开发的场景下解决这个问题的一个实践:以运营的业务BSC目标为导向,将开发与运营的目标绑定,同时将开发能力进行分层,下层偏重平台架构、软硬件系统类技术门槛比较高的研发,上层偏重业务逻辑和运营管理综合报表,中间提炼出低代码中台为上层业务和报表开发降低开发门槛和赋能。FRE提出的口号就是:开发能力层层赋能,业务价值层层放大。

图表 3 FRE模式下运营开发三层模型 

 03

 FRE——How?

图表 4 FRE体系构建阶梯

从2022年开始,腾讯数据中心开始推动运营人员向FRE转型,要成为一个具备产品设计和经营分析各项技能的FRE工程师,其能力模型也会有很多变化。FRE工程师除了对数据中心现场风火水电、资源管理等领域精通以外,还要掌握产品设计、数据分析与低代码开发能力。

腾讯数据中心FRE工程师认证分为3个等级

(1)基础入门

FRE初级工程师需要具备最基础的能力, 要求FRE初级工程师通过使用凭条和工具完成重复的、低效的工作,能够有效的向研发侧反馈系统和工具上的需求。

(2)应用编排

FRE中级工程师需要掌握基于低代码平台的流程编排和基于BI平台的报表编排。需要掌握BPMN业务流程建模与标注,基于BI平台配置业务数据报表,进行数据分析和统计。

(3)业务开发

FRE高级工程师需要会使用编程语言基于各类公共库、公共组件进行低代码化开发。掌握各类常用库的使用,能够使用代码对运营数据进行复杂的关联分析。

 04

DcOps赋能传统设施运营向FRE转型

图表 5 DcOps低代码中台设计

在运营领域中,如果一个规范或者流程没有配套对应的系统工具,那就很难在实际场景下落地,对于FRE也一样。如果要求一个对数据中心技术专家能够擅长代码开发会非常有难度。因此,在FRE与底层系统平台之间需要构建一个低代码中台,衔接系统和运营人员,在复杂场景中改善人和系统的协作关系。腾讯数据中心通过将底层系统和数据进行抽象归纳,构建了一套高度自定义的低代码中台DcOps。DcOps中台通过数据自定义、流程配置、页面拖拽、代码/组件复用形成了一套平台即产品的低代码开发模式。FRE人员可以屏蔽最底层的数据和接口,通过DcOps提供的服务积木,自行搭建自己的运营流程和工具。积木化是DcOps平台既便于FRE人员开发和更新,又能有非常高的代码和服务复用率的关键。

 05 

设施运营转型FRE运营的实践及效果

接下来我们从三个典型的设施运营场景介绍传统设施运营向FRE转型的实践和初步效果。

案例一:小林,腾讯某数据中心的机房经理,负责数据中心的整体运营管理。每天到公司的第一件事就是检查各个系统的运行参数与例行事项的执行情况,然后通知现场工程师进行确认、排查异常情况,安排接下来的维护工作。要管理好一个数据中心,需要关注数据中心运营的方方面面,从配电暖通架构、主要设施设备运行参数和关键风险点、近期重点运营事项,到运维人员的技能水平和工作习惯,林林总总都是机房经理需要考虑的重要因素。在传统运营模式下,机房经理的个人能力、经验和责任心是数据中心运营稳定的关键因素,因此每天小林总是忙得团团转。22年下半年小林开始向FRE转型,作为自动化推进委员会的代表,参与到设施底层数据准确性治理项目中,通过前期的FRE能力建设,基于低代码平台DcOps,实现了底层异常数据核对、治理的流程自动化,极大的降低了人力投入;在日常的运营管理上,通过低代码平台DcOps将自己的运维经验沉淀到代码中,开发了一系列运营相关的小工具—机器人小助手,机器人每天将机房测点数据、超电数据、服务负载数据、工单执行情况等相关数据,按设定的逻辑与流程进行分析与判断,然后通过平台的工单自动分派给各个处理人,能够保障运营工作及时发现、及时处理、过程可管控。

图表 6 将运营经验沉淀到DcOps平台上

案例二:小刘是负责腾讯数据中心基础设施维保的同学,日常工作是按照年度维护行事历,有计划的开展设备的维护保养工作。每次实施维护保养的工作,小刘总会头疼:月度的柴发维护又开始了,小刘紧盯着行事历,前段时间紧急下发封网通知,现场差点错过了维保计划。按照原有的维护模式,既要在预设的时间内完成柴发维护操作内容,又要详细的记录维护过程中的一堆纸质表单与数据,还要能眼观六路、耳听八方,发现在维护过程中存在的设备异常,确保维护质量。一会儿抄数据,一会儿做目视检查,柴发的转速、输出电压、电流、频率、水温一个都不能少,抽空再跑到并机控制室去看看柴发的并机运行情况。小刘周旋在现场的维护工作和线下的纸质单据之间被极限拉扯,每每看到眼前堆成小山的纸质记录表的时候,都要吐糟这不符合公司要实现的“碳中和”目标。22年的下半年,在运营开发团队支持下,小刘开始学习低代码开发,借助DcOps强大的流程编排能力,运营团队把腾讯打磨成熟且标准的维护流程和MOP搬到了线上,结合基础设备维保管理平台,确保业务流程的规范化、标准化。同时通过拉取设备信息和业务数据,实现维护工单的半自动填写。低门槛、高效率的DcOps帮助小刘在两个月的时间内快速实现了维保业务规范化、标准化、线上化,保障运维质量,提升运维效率,同时运营团队也以柴发月度维护为示例,完成了首个维护场景的现场部署及测试。

图表 7 柴发月度维护流程线上化

案例三:小J是腾讯数据中心设施经理,日常工作是负责数据中心基础设施的运营管理。在降本增效的大背景下,数据中心如何在保证运营质量的同时实现成本优化这是小J和他的团队面临的挑战,在数据中心的运营成本中,电费占了最大的比例,有效的降低PUE一直都是现场运营人员绕不开的话题。为了对PUE进行更好的优化,小J首先去平台上查阅过去一年来的PUE变化情况,但他发现数据居然有很多天是中断的,这样就无法进行全面细致的数据分析了,这带来了很大的困扰。22年下半年,小J向FRE转型,参与PUE治理和优化项目,借助灯塔和DcOps平台,可以发现引起PUE数据异常的测点信息并派单给现场进行处理,同时通过过滤无数值测点、异常测点附加正确值等方式对PUE进行数据降噪,实现了PUE数据质量的提升。有了准确的数据之后,小J对历史数据进行了详细分析并制定了供水温度提升和末端空调风机/水阀等调优策略,同样借助DcOps等自动化平台,完成了数据自动采集与能耗分析功能的上线,可直观的看到各个维度的运营数据,如末端空调用电量、室外湿球温度、冷却塔风扇用电量等,并能够灵活的进行关联性、趋势性等数据分析,在线上工具和现场运营工作的有机结合下,PUE快速实现了既定的优化目标。

图表 8 数据驱动PUE治理调优

腾讯数据中心通过FRE的探索发现,给设施运营团队赋予低代码开发能力和数据分析能力,无疑是给运营人员增添了一对有力的翅膀,未来会有越来越多的数据中心运营人员转型为FRE,数据中心运营管理逐步由线下属地化运营转向以数据、流程为核心的线上运营+线下属地运营的双轮驱动模式,FRE是提升运营自动化水平从而提升运营效率和质量的有效手段和途径。

如果说腾讯数据中心是一艘远洋的帆船,安全、高效、智能化运营是我们航向广阔世界的基础和保障,而FRE将会成为船上最有力的那个帆,助力腾讯数据中心驶进运营新时代,乘风破浪,扬帆启航!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-02-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯数据中心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云微搭低代码
微搭低代码是一个高性能的低代码开发平台,用户可通过拖拽式开发,可视化配置构建 PC Web、H5 和小程序应用。 支持打通企业内部数据,轻松实现企业微信管理、工作流、消息推送、用户权限等能力,实现企业内部系统管理。 连接微信生态,和微信支付、腾讯会议,腾讯文档等腾讯 SaaS 产品深度打通,支持原生小程序,助力企业内外部运营协同和营销管理。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档