Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >8 亿人晒军装,背后的运维技术大揭密!

8 亿人晒军装,背后的运维技术大揭密!

原创
作者头像
织云平台团队
修改于 2017-08-10 10:16:58
修改于 2017-08-10 10:16:58
3.8K0
举报

团队简介: 腾讯SNG社交平台业务运维团队,负责Qzone、微云、QQ相册、天天P图、优图等产品的技术运营工作。致力于服务质量优化、服务保障、自动化运维体系建设等工作。经历过农牧场、红包、"军装"P图等多次活动保障。团队一直在进行自动运维,智能运维探索和实践。

前言

近两天人民日报+腾讯云联合运营“军装照”活动,想必已经刷爆了各位的朋友圈。在这场营销盛宴的背后,伴随了又一次海量运维能力的showtime:4000台设备,峰值24G带宽,5次运维自动扩容。

这类利用社交关系引爆的运营事件对腾讯SNG的运维团队早已不是什么新鲜事,从全民农牧场、全民刷红包、cosplay甄嬛传、军装照,SNG的运维团队早已把应对业务突发的变化作为织云智能运维平台能的核心能力。今天就让我们一起来探秘下,织云智能运维平台的关键技术和核心功能。

前言

近两天人民日报+腾讯云联合运营“军装照”活动,想必已经刷爆了各位的朋友圈。在这场营销盛宴的背后,伴随了又一次海量运维能力的showtime:4000台设备,峰值24G带宽,5次运维自动扩容。

这类利用社交关系引爆的运营事件对腾讯SNG的运维团队早已不是什么新鲜事,从全民农牧场、全民刷红包、cosplay甄嬛传、军装照,SNG的运维团队早已把应对业务突发的变化作为织云智能运维平台能的核心能力。今天就让我们一起来探秘下,织云智能运维平台的关键技术和核心功能。

织云智能运维平台

1、 标准化运维

织云智能支撑平台管理着超过十万台服务器,上万个功能24小时提供服务,而运维操作人员却很少。一个人维护近万台服务器,军装活动来临时可以快速无误的完成4000台服务器上线,是依托什么实现的呢?最主要得益于长期以来织云推行的标准化服务和运维的理念和要求。织云平台提供的统一包框架,集中配置管理,统一路由,统一组件等标准化技术手段,帮助运维研发质量等多团队完成高效协作,标准交付,快速应对等重要运营能力。标准化运维体系帮助我们在任何时候都能快速应对各种突发业务需求。

2、 强大的IAAS供应基础

依托腾讯云的海量资源,织云可以提供秒级的IAAS供给能力,结合自动化变更扩容缩容技术,可以快速应对万级服务资源供给上线需求。

3、 CMDB应用配置介绍

织云CMDB的设计,以模块为管理节点(模块:提供单一功能服务的集群)。会记录相关的配置信息,具体包括:硬件配置、软件配置、运营设置、软件包、配置文件、脚本、流程、测试用例等自动化依赖的关键系统。

以天天P图业务的CMDB应用配置示意图如下。

4、 自动化流程的介绍

织云提倡的自动化理念是:标准化 -> 配置化 -> 自动化,让企业的常用操作固化成流程工具。不依赖容易过期的文档,不依赖容易流失的人的经验。

参考持续交付的原则“为软件的发布创建一个可重复且可靠的过程”,运维团队为了解决人肉操作经验差异的难题,将运维操作通过流程DIY编排能力,实现标准操作的固化。“军装照”活动扩容,任何一个运维人员只需要执行天天P图的扩容功能即可实现容量扩展,而织云流程会自动化的完成整个服务部署和上线的操作。(如下图)

5、 关键的技术点:

1、 织云路由:L5

  • 名字服务

将调用对象IP、端口为维度抽象为名字服务,主调方调用时,无需关注实际被调服务器,而只需要确定名字服务ID。以此实现,被调方的IP变化对主调方完全透明。

由于有些被调服务器本身存在差异,存在计算能力不一致的可能,可对不同的被调对象配置不同的权重,织云平衡木能够自动根据服务器处理能力、容量情况自动进行权重配置,达到负载均衡的目的。

  • 请求调度

链路、机房环境发生故障时,可能导致单服务器故障机率较大,织云L5具有的主动探测、调整机器,将故障机主动踢出被调,在故障机恢复后将其自动加回被调集群。在大面积机房故障时,也可借助L5的调度功能将整体被调对象切换到其他机房。

2、 大并发传输

运维平台如何实现快速文件分发,在织云平台的技术实现上,主要有两个技术要点:

  • 异步、基于消息队列的执行引擎 直接操作现网机器执行命令的命令通道、以及执行扩缩容任务的流程系统,均采用面向消息与异步通信的架构,高并发,易于水平扩展。
  • 分布式多级文件分发系统 文件分发是服务部署强依赖的基础功能。源文件存储分布式文件系统上,三份冗余。既提高了可靠性,同时也提高了本地读取速度。对于多区域环境,每个区域还有独立的文件缓存,就近传输。

3、活动平台:自动缩容

社交运营活动是腾讯SNG的常态,因此织云专门针对这种活动业务的特点:快上快下,定义了活动平台的功能给予支持。

自动缩容功能支持定时缩容与低负载缩容,由不同的策略触发运维自动化流程操作。“军装照”的4000台设备活动热度过后,运维人员可设置自动的缩容策略,即可实现自动化的缩容,无需人工介入操作。(缩容操作如下图)

容量监控的方法

1、 高低负载日常管理 运维工作要尽量减少救火式的任务,鼓励有计划有准备的工作,将容量管理变成重要不紧急的工作。因此,我们倾向于把这部分工作例行化,将容量管理从计划外任务转变成计划内任务。 以腾讯SNG对生产环境容量管理的度量方法为例,织云平台提供统计数据(以模块为管理单位):

  • 低负载:CPU使用率 <30%,流量 <100Mb/秒,访问密度 <200次/秒/GB
  • 高负载:CPU使用率 >75%,流量 >300Mb/秒,访问密度 >600次/秒/GB

2、 异常容量的处理 在腾讯SNG运维日常工作中,与容量相关的运维对象有:单机、模块、SET。

* 单机的容量管理 利用CPU亲和或linux内核多队列网卡的特性,解决多核CPU间负载不均,导致容量浪费的问题。

* 模块的容量管理

1)利用织云L5路由服务的请求权重调度的能力(参考开源nginx、haproxy、LVS等),解决集群内IP负载不均的问题。 2)利用织云一致性管理能力,解决应用程序或配置文件部署不一致的问题。 λ SET的容量管理 结合压测找到SET的性能短柄,保持SET容量模型可靠,以备关键时刻调度所用。 3、 实时模块容量监控 在模块内IP容量一致的情况下,织云监控实时采集单机硬件性能指标,即可汇总计算出模块的实时容量指标,供自动化决策所用。 织云主机监控技术架构如下图,支撑着10w台设备量的主机性能数据采集,为腾讯社交业务提供准确高效的基础监控能力。

写在最后

SNG社交平台业务运维团队在腾讯云和织云平台的辅助下,为人民日报的“军装照”运营活动提供了强有力的运维支撑,虽然镁光灯下不常有运维的身影,但我们依然为腾讯产品自豪、为我们的运维工作感到自豪!

欢迎关注「腾讯织云」微信公众号,获取最新织云的技术资讯。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
从鹿晗关晓彤恋情事件看运维的节假日准备工作
织云平台团队
2017/10/10
3K0
从鹿晗关晓彤恋情事件看运维的节假日准备工作
看腾讯运维应对“18岁照片全民怀旧”事件的方案,你一定不后悔!
本文主要讲述了腾讯SNG在社交网络事业群中,在运维领域的探索和实践。通过不断演进的运维技术,提高了运维效率和成本效益,保障了业务的高可用性。同时,运维团队贯彻“养兵千日用兵一时”的理念,通过标准化、流程化、自动化的运维体系建设,确保在突发事件中能够快速响应和处置。通过不断实践和优化,最终实现了在相册、直播、点播、微信、手Q、应用宝、游戏、新闻、微云、企鹅影业、腾讯云等多个业务领域的运维支撑。
织云平台团队
2018/01/04
1.4K0
看腾讯运维应对“18岁照片全民怀旧”事件的方案,你一定不后悔!
腾讯云运维干货沙龙-海量运维实践大曝光 (三)
织云平台团队
2017/12/17
5.4K0
腾讯云运维干货沙龙-海量运维实践大曝光 (三)
腾讯海量数据仓库运维系统 : 鹦鹉螺
willsiom
2017/09/11
2.2K0
腾讯海量数据仓库运维系统 : 鹦鹉螺
腾讯最完整的监控体系介绍,看这篇就够了!
织云平台团队
2017/10/18
16.7K0
腾讯最完整的监控体系介绍,看这篇就够了!
腾讯云运维干货沙龙-海量运维实践大曝光 (二)
织云平台团队
2017/12/17
8.8K1
腾讯云运维干货沙龙-海量运维实践大曝光 (二)
卓伟:腾讯云人脸融合技术构建
4月13日结束的计算机视觉沙龙圆满落幕。本期沙龙从构建图像识别系统的方法切入,讲述腾讯云人脸识别、文字识别、人脸核身等技术能力原理与行业应用,为各位开发者带来了一场人工智能领域的技术开拓实践之旅。下面是卓伟老师关于腾讯云人脸融合技术构建的总结。
腾讯云开发者社区技术沙龙
2019/04/23
4.9K0
卓伟:腾讯云人脸融合技术构建
自研路由如何解决运维六大挑战?
腾讯内部一些基础服务比如统一鉴权登录、社交关系链、支付被内部很多其他业务调用,调用方往往横跨几个事业群,几十个部门,有数百个模块,上万台设备。
织云平台团队
2018/01/10
1.4K0
自研路由如何解决运维六大挑战?
走进腾讯,聊运维干货(第一期):海量运维实践大曝光
《走进腾讯,聊运维干货(第一期):海量运维实践大曝光》是腾讯云主办的互联网运维实践系列技术分享沙龙,活动邀请了腾讯云的技术专家分享他们的运维经验。该活动在北京、上海、深圳、广州、厦门、成都等城市举办,主题为海量运维实践大曝光。活动旨在帮助互联网从业者了解腾讯的运维实践和干货,学习如何打造稳定、高效、安全的系统,以应对海量用户的挑战。活动吸引了来自全国各地的开发者、运维工程师、架构师等,在活动现场,大家通过腾讯云社区报名,活动报名人数超过1000人。活动上,腾讯云的技术专家围绕“运维”这一主题,从海量运维、运营规划、运维自动化、智能监控等多个角度,结合实战案例,深度剖析了运维领域的最佳实践和干货。
腾讯云开发者社区
2017/12/08
2.5K0
走进腾讯,聊运维干货(第一期):海量运维实践大曝光
40天14大版本升级,腾讯会议背后大规模容器技术实践
腾讯会议作为面向企业级的关键产品,对产品的可用性和稳定性要求是非常高的,任何服务不稳定都可能会导致用户无法接入会议、会议中断或音视频质量差,从而导致用户投诉,影响到产品口碑,降低用户信任度。
Walton
2020/03/17
2K0
DevOps 三步工作法之持续反馈的技术与案例
导言 很高兴参与DevOps时代社区的拆书联盟第一季活动,有幸能与几位DevOps大牛一起解读《DevOps Handbook》一书,这本书作者牛,内容也很牛,就连著名的培训机构把这本书作为DevOp
DevOps时代
2018/02/02
1.6K0
DevOps 三步工作法之持续反馈的技术与案例
腾讯云+运维,助力运维领域技术发展
摘要总结:本文主要介绍了腾讯云和织云联合举办的“腾讯云运维干货”系列沙龙,旨在推进运维领域技术交流发展,让更多的企业完成向云计算的转变。沙龙每期都会邀请腾讯运维领域的专家分享云计算时代的运维思考和实践,同时还会提供腾讯云代金券,助力企业和个人体验腾讯云产品。
腾讯云开发者社区
2017/12/18
5.4K0
腾讯云+运维,助力运维领域技术发展
这样的CMDB设计,居然阻止了海量告警对运维的轰炸
梁定安(大梁),运维技术总监,复旦大学客座 DevOps讲师。多年运维、运营开发和 DevOps 的工作经验,曾负责 Qzone、相册等 SNG 社交平台类业务的运维规划与管理,经历了 SNG 运维标准化、自动化、智能化建设的全程。腾讯织云负责人。 1 标题党一回!本文主要介绍运维 CMDB 的设计思路,恰当的 CMDB 设计,对运维效率的提升,如收敛告警和故障自愈等,有着意想不到的效果。 在运维自动化平台的设计理念中,我们一直提倡“减少运维对象”,并将运维对象进行抽象化、模型化、配置化的录入 CMDB 中
织云平台团队
2018/06/19
1.6K0
GOPS2018--腾讯运维体系专场回顾
听说4月14日腾讯社交网络运营部八位大咖倾巢出动,齐聚深圳圣淘沙酒店。所谓何事? 当然是GOPS全球运维大会--腾讯运维体系专场了,几位老师给大家带来了一场思想盛宴。活动圆满结束!~ 下面跟着小编来去看看活动现场盛况,感受几位讲师的风(yan)采(zhi)吧。 首先,让我们隆重地请出本次专场活动的出品人兼主持人--腾讯运维总监聂鑫,从开发到运维,伴随社交网络运营部成长的十年,负责过腾讯社交产品所有业务运维工作,见证了整个SNG运维体系的建立,发展和成熟过程。有这么重量级的大咖加持,咱们的专场能不诚
织云平台团队
2018/04/17
2.1K1
GOPS2018--腾讯运维体系专场回顾
模型剖析 | 如何解决业务运维的四大难题?
前言 作为业务运维,你是否经常会碰到这样的问题: 1. 新业务上线,开发同学会对服务做性能测试,但是换一种机型后的性能如何?服务版本更新后性能是否发生变化? 2. 节假日即将到来,某个业务预估用户活跃
织云平台团队
2018/08/14
1.8K0
3亿人次的实战演习,如何做到丝般顺滑?
织云平台团队
2017/07/03
1.9K0
3亿人次的实战演习,如何做到丝般顺滑?
青铜到王者:AIOps 平台在腾讯的升级之路
在海量运营方法论的指导下,运维团队构建了体系化的运维能力,为众多产品保驾护航。
织云平台团队
2018/03/28
6.1K1
青铜到王者:AIOps 平台在腾讯的升级之路
万台服务器一人挑的五大挑战
前言 SNG运营部组件运维团队主要负责SNG自研业务接入层和逻辑层的运营维护, SNG自研业务包括QQ、Qzone、看点、社交增值、企鹅电台、微云、腾讯课堂等,团队负责其中1.8万个域名、3000个业务模块的运维,在春节期间运维设备超过4万,单人运维设备超2万。我们在海量服务运维过程中面临哪些挑战呢? 五大挑战 1 挑战一:上万域名如何保证就近接入,如何应对运营商出口网络故障? 中国国土面积世界第三,横跨8个时区,有34个省、自治区、直辖市,腾讯IDC机房的分布主要是深圳、上海、和天津,那么问题来
织云平台团队
2018/03/28
1.2K0
万台服务器一人挑的五大挑战
少年,你的告警量可以更少些!
作者简介:梁定安,腾讯织云负责人,目前就职于腾讯社交网络运营部,开放运维联盟委员,腾讯云布道师,腾讯课堂运维讲师,EXIN DevOps Master讲师,凤凰项目沙盘教练,复旦大学客座讲师。* 请原
织云平台团队
2017/05/15
4.9K0
少年,你的告警量可以更少些!
存储世界,不止如此 : EB级存储引擎背后的技术
TEG云端专业号
2017/07/05
2.9K0
存储世界,不止如此 : EB级存储引擎背后的技术
推荐阅读
相关推荐
从鹿晗关晓彤恋情事件看运维的节假日准备工作
更多 >
LV.1
腾讯运维工程师
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档