前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >腾讯会议幕后的 Metric 监控

腾讯会议幕后的 Metric 监控

原创
作者头像
腾讯云可观测平台
修改于 2020-02-12 05:06:47
修改于 2020-02-12 05:06:47
5.9K0
举报

前几天在CCTV播出的《新闻联播》——“众志成城保供应 企业在行动”,对腾讯在疫情期间向全国用户免费开放300人不限时的会议功能进行了报道:

腾讯在疫情期间为全部用户免费提供300人不限时的会议功能,并提供7*24小时服务,为政府应急指挥沟通、医疗物资调配、工作人员在家远程办公提供支持。

腾讯会议可满足全球130个国家和地区的5000万用户同时在线需求,这背后不仅有8天紧急扩容超100万核心的强大资源保障,还有腾讯云监控对其服务质量的保驾护航。

通宵达旦支持腾讯会议,小伙伴们辛苦了~比心 ❤
通宵达旦支持腾讯会议,小伙伴们辛苦了~比心 ❤

业务要保障SLA,需要立体式监控体系:指标监控、日志监控和链路监控,今天我们仅来聊聊腾讯会议流量暴涨背后的指标监控场景。那么研发是如何通过定义指标,管理指标,分析指标,从而快速感知自己负责的模块发生异常并定位原因呢?腾讯会议通过腾讯云监控团队自研的监控平台来实现。

埋点上报

研发在产品开发初期就会为产品的 SLA 下很多功夫,在关键路径加入上报指标的埋点。

例如:用户登录过程的一个模块会分解成十几个逻辑步骤,而每个步骤由会分解成不同的指标,比如请求成功或者失败。每个模块分解的越详细,意味着出现异常时可供排查问题的信息越详细,产生的指标也就越多。所以产生成千上万个类似如下的业务自定义指标,一点也不夸张:

  • 会议在线用户数;
  • 当前房间数量;
  • 加入会议耗时;
  • 解散会议成功率。

聚焦大盘

指标一多,问题来了:如何快速知道业务SLA发生变化,并对业务运营状况了然于胸?研发小哥哥通过Grafana搭建核心监控大盘,专门展示“最关键”的业务指标,以便值班同学查看腾讯会议核心指标的变化情况。

分组视图

如此海量的服务器和上报指标,每个研发小哥哥手里维护的模块都不止一个,而每个模块又有成千上万个指标,非常不利于查看和管理。通过腾讯自研监控平台的多层分组管理功能可解决这一问题:

  • 机器分组:首先可以按不同服务模块部署的机器进行分组管理,例如腾讯会议-代理层、腾讯会议-连接层、腾讯会议-逻辑层、...
  • 构建视图:将机器分组后,默认会把该分组机器上报的所有指标汇聚构建成一个视图,以便业务可以按模块查看不同分组视图下的指标情况;
  • 指标分组:然后再把分组上报的指标进一步进行分组管理,例如加入会议、主持人操作、退出会议、解散房间等,以便快速检索想要关注的指标。

无阈值检测 & 智能告警

成千上万个指标,异常又是如何快速被发现呢?由于业务流量突增,手动更改告警的阈值规则会不准确。通过时间序列算法,腾讯云监控团队自研 Metis ,可以帮助腾讯会议智能检测出异常,并把相同时间段内相似异常特性的指标,关联收敛成一条告警推送。业务点击打开告警查看详情时,不仅可以看到发生异常的指标,还可以展开看到每台机器上报该指标的单机视图,方便业务快速清晰地定位问题。

疫情期间,PC 端关注重要指标监控告警多有不便,监控小程序可解决上述问题,通过接入小程序,业务可方便在手机实时查看重要业务指标。


腾讯云监控-自定义监控上线ing

用户根据业务特性定义重要指标,管理指标是重要的监控保障方式。腾讯海量业务,如QQ、看点、腾讯课堂等无不通过指标监控的方式在为服务于用户体验。

腾讯云监控也对外开放了自定义监控功能,为广大腾讯云客户提供指标监控的能力。

  • 用户无需预注册,便可上报指标,通过极简的方式完成指标上报和告警配置;
  • 开放了实例分组的功能,用户可以按服务模块把不同的CVM或SCF实例做分组管理,方便查看各分组下的指标视图;

目前只把自研监控的部分能力上线,还有更多更丰富的功能持续迭代中,尽请期待。

自定义监控为腾讯云客户提供免费内测,诚邀您点击 申请页面 参与内测体验!

腾讯云监控更多能力特性

除了自定义监控,腾讯云监控还提供了基础监控和日志监控的功能。

  • 基础监控:协助用户查看名下CVM实例的负载、CLB的出入流量、数据库的连接数、SCF函数的调用次数等。
  • 日志监控:使用腾讯云日志服务CLS(上报业务或系统组件日志并进行检索查询和存储),通过腾讯云监控-日志监控功能,自定义多个维度和指标,进行多维分析展示,并完成相关告警配置,形成日志存储-检索-监控-告警的场景化解决方案。


扫描二维码,关注腾讯云监控公众号
扫描二维码,关注腾讯云监控公众号

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
“停课不停学”— 腾讯云监控给你划知识重点
早前针对疫情的影响情况,各地教育局纷纷发布了延迟开学的通知。为了让广大学子们在家也能线上学习,腾讯课堂助力“停课不停学”,推出了“老师极速版”,全方位帮助学校、老师、学生进行在线教学,助力保障学校与教育机构的教学进度与教学效果。
腾讯云可观测平台
2020/03/02
9640
“停课不停学”— 腾讯云监控给你划知识重点
云“战疫”:8天扩容100万核,我们这样做好监控
疫情当前,科技向善,腾讯应用都开始支撑各大远程工作、教育的场景,众所周知的“腾讯课堂”、“微信课堂”,“腾讯会议”在抗击疫情中做出了很大的贡献,数亿人成为了这些系统的用户。通过可视、互动的远程有效沟通、交流,一定程度保障了生产、学习工作的有序进行。
腾讯云可观测平台
2020/03/26
6380
云“战疫”:8天扩容100万核,我们这样做好监控
运维监控做成这样,就达到BATJ的水准了
我们知道监控系统的目标是:为保障业务SLA,帮忙我们更全面、细致的了解业务系统的运行状态,更及时的发现系统风险,同时给技术运营的同学争取更多化解风险的时间和解决问题的方向。
腾讯云可观测平台
2020/03/12
6980
腾讯会议后台研发效能提升之路
---- 本文摘录于 《软件研发效能权威指南》 作者:周桂明 腾讯会议高级架构,腾讯云与智慧产业事业群 DevOps 与研发效能架构师 从字面上看,研发效能追求的是“效率”,但是脱离目标谈效率是没有意义的。从研发的角度看,软件的意义就是为用户和客户交付他们的所需,从而产生价值。因此,研发效能就是更快地为软件的用户或客户交付价值。这里的价值包括几个方面: 有效性:让业务交付的服务和客户的需求及市场更加匹配,即对不对的问题。 质量:提升业务的安全性和可靠性、用户体验等,即好不好的问题。 效率:提升研发运维和
腾讯云 CODING
2022/11/18
3.2K0
腾讯会议后台研发效能提升之路
大国点名,监控护航
作者:张加浪 腾讯云监控高级工程师 背景 十年一次的人口普查是涉及全国十几亿人的重大事情,每次人口普查都是对国人的一次梳理,国家和人民都十分重视。随着技术的不断创新,人口普查的普查方式也在不断升级,从人工加算盘到人工加老式计算机,再到卫星传感。 在第七次全国人口普查 (以下简称 “七人普”) 的到来之际,国家决定通过 “电子化方式普查登记,腾讯提供技术支持” 更快更准的普查方式,即实行云端普查登记。 七人普主要通过小程序方式进行制证、普查员注册、人口普查等,700 万的普查员,十几亿的普查对象,服务必
腾讯云可观测平台
2020/12/10
2.1K0
DNSPod十问王万龙:AIOps为什么还没成为主流?
王万龙,腾讯云监控产品中心总经理。2012年入职腾讯,参与、主导和负责朋友网、QQ空间、QQ小程序、公众号、QQ基础平台业务,在多年的开发过程中孵化了UGCLog统一日志平台、XProf全链路专家系统等日志、链路一体化监控平台,在研发效率提升工具建设方面有丰富的经验。曾任职于迅雷,先后参与并支持了迅雷看看、迅雷游戏等重要业务。华南理工大学计算机科学与工程学院,智能演化算法方向。 田超,腾讯云企业中心总经理、音视频应用平台总经理,负责腾讯云用户增长、DNSPod业务以及企业应用相关产品。同时也是资深用户增长
腾讯云DNSPod团队
2022/12/26
1.4K0
DNSPod十问王万龙:AIOps为什么还没成为主流?
腾讯业务监控的修炼之路(一)
本文主要介绍了如何基于监控告警实现业务闭环,从四个大方面进行了展开:1)基于业务影响的监控告警,2)基于故障收敛的监控告警,3)基于运维流程的监控告警,4)基于质量度量的监控告警。在本文中,作者还介绍了在腾讯云平台上如何利用监控数据实现故障定位和故障恢复,以及如何通过自动化流程实现故障收敛和故障自愈。
织云平台团队
2017/09/01
9.8K1
腾讯业务监控的修炼之路(一)
服务质量分析:腾讯会议&腾讯云Elasticsearch玩出了怎样的新操作?
从1月29日起,为了应对疫情下远程办公的需求,腾讯会议每天都在进行资源扩容,日均扩容云主机接近1.5万台,8天总共扩容超过10万台云主机,共涉及超百万核的计算资源投入。
腾讯云开发者
2020/07/23
2.2K0
腾讯SNG全链路日志监控平台之构建挑战
本文讲述了如何构建一个全链路日志监控平台,包括数据采集、存储、查询和分析等方面的技术实现。同时,文章还探讨了在构建过程中所遇到的挑战和问题,以及解决方案。
织云平台团队
2017/11/15
3.4K0
腾讯SNG全链路日志监控平台之构建挑战
腾讯医疗健康高级工程师一线分享:鹅厂人都在用的小程序监控“神器”
刘志祥 腾讯医疗健康高级前端开发工程师,腾讯前端监控 Oteam PMC 成员,主要负责小程序监控系统的设计和开发。 微信小程序现状发展 在今年的微信公开课 PRO 上,微信小程序负责人曾鸣披露了2021年小程序的大盘数据。数据显示,2021年微信小程序 DAU(日活) 达到了 4.5亿+ 的规模,小程序开发者超过了 300 万。 随着小程序的高速发展,越来越多的重点业务以小程序的产品形态展示在用户面前。前端作为用户访问业务的直接途径,对用户体验的重要性不言而喻,若出现页面出错、卡顿、崩溃、损坏等页面异
腾讯云可观测平台
2022/08/31
7910
腾讯医疗健康高级工程师一线分享:鹅厂人都在用的小程序监控“神器”
腾讯 SNG 监控数据的创新应用
本文将向大家分享SNG监控十年来变革背后的驱动因素和立体化的监控方案,最后给大家展示最新的智能监控的应用场景。
织云平台团队
2018/08/07
7.9K3
「腾讯会议」:面对业务指数级增长如何高效运维?
在我们深入使用CLS 的过程中,CLS的性能和数据加工的简便性给我们留下了深刻印象。原来需要自建Kafka和Flink才能完成的需求现在CLS两分钟就可以搞定了!
日志服务CLS小助手
2022/01/23
1.4K1
腾讯云云监控的几种使用姿势
云监控(Cloud Monitor,CM),收集并通过图表展示腾讯云云产品自助上报的各项监控指标和用户自定义配置上报的监控指标,以及针对指标设置告警。为您提供立体化云产品数据监控、智能化数据分析、实时化异常告警和个性化数据报表配置,让您实时、精准掌控业务和各个云产品健康状况。
云计算_客服
2022/05/16
3.7K0
腾讯云云监控的几种使用姿势
揭秘日活千万腾讯会议全量云原生化上TKE技术实践
作者王涛,腾讯云高级工程师,从事云计算行业8年,拥有5年多容器研发经验,近两年主要负责腾讯自研业务上云的大规模云原生平台的研发设计工作。 腾讯会议,一款联合国都Pick的线上会议解决方案,提供完美会议品质和灵活协作空间,广泛应用在政府、医疗、教育、企业等各个行业。大家从文章8天扩容100万核,腾讯会议是如何做到的?[1]都知道腾讯会议背后的计算资源已过百万核,如此体量的业务,如何通过云原生技术提升研发和运维效率,是一个非常有价值的课题。这里我将为大家揭秘腾讯自研上云容器平台TKEx在支持腾讯会议全量云原生化
腾讯云原生
2022/04/14
1.1K0
揭秘日活千万腾讯会议全量云原生化上TKE技术实践
腾讯会议大规模任务调度系统架构设计
疫情期间,很多企业受到了较大冲击,正常的复工生产无法进行。腾讯会议作为一款非常便捷的远程协作工具,成为了国内众多企业日常会议沟通交流的主要平台,这款产品从2019年12月26号正式推出,如何在这么短的时间内有效支撑起国内数以亿计用户的访问量呢?如何保障系统的稳定运行?
腾讯云开发者
2020/05/08
5.3K0
40天14大版本升级,腾讯会议背后大规模容器技术实践
腾讯会议作为面向企业级的关键产品,对产品的可用性和稳定性要求是非常高的,任何服务不稳定都可能会导致用户无法接入会议、会议中断或音视频质量差,从而导致用户投诉,影响到产品口碑,降低用户信任度。
Walton
2020/03/17
2K0
官方推荐 | 《2分钟带你认识腾讯云监控》
关注腾讯云大学,了解最新行业技术动态  戳【阅读原文】查看55个腾讯云产品全集 课程概述 云监控(Cloud Monitor,CM)可收集并通过图表展示腾讯云云产品自助上报的各项监控指标和用户自定义配制上报的监控指标,以及针对指标设置告警。为您提供立体化云产品数据监控、智能化数据分析、实时化异常告警和个性化数据报表配置,让您实时、精准掌控业务和各个云产品健康状况。 【课程目标】 了解云监控产品定义 了解云监控产品功能
腾讯产业互联网学堂1
2023/05/29
4610
官方推荐 | 《2分钟带你认识腾讯云监控》
腾讯会议全量上TKE的技术实践
腾讯会议,一款联合国都Pick的线上会议解决方案,提供完美会议品质和灵活协作空间,广泛应用在政府、医疗、教育、企业等各个行业。大家从文章8天扩容100万核,腾讯会议是如何做到的?都知道腾讯会议背后的计算资源已过百万核,如此体量的业务,如何通过云原生技术提升研发和运维效率,是一个非常有价值的课题。这里我将为大家揭秘腾讯自研上云容器平台TKEx在支持腾讯会议全量云原生化上云背后的技术。
Walton
2020/06/21
3.2K0
腾讯会议全量上TKE的技术实践
健康码如何通过监控提升小程序的用户体验?
从2020年疫情爆发以来,全国上下均处在疫情防控常态化期间,“健康码”已经成为各地大量人员流动场所进出的重要凭证。
腾讯云可观测平台
2021/09/29
1.4K0
监控产品上新月报【12月】
应用性能观测 APM 1. 支持将APM 页面嵌入您的自建系统,更方便您查看应用性能数据。操作文档: https://cloud.tencent.com/document/product/1463/67296。 APM 满足不需要登录腾讯云控制台即可查询分析 APM 数据的诉求。通过内嵌应用性能观测控制台页面,可以给用户带来以下方便: 在外部系统服务中(例如公司内部运维或运营系统)快速集成 APM 数据的查询分析能力。 无需管理众多腾讯云子账号,方便将 APM 数据共享。 [点击查看大图] 2. 接
腾讯云可观测平台
2022/01/14
1K0
推荐阅读
相关推荐
“停课不停学”— 腾讯云监控给你划知识重点
更多 >
LV.0
这个人很懒,什么都没有留下~
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档