Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >传统企业可观测建设之路

传统企业可观测建设之路

原创
作者头像
嘉为蓝鲸
发布于 2024-06-28 09:38:59
发布于 2024-06-28 09:38:59
2050
举报
文章被收录于专栏:可观测系列可观测系列

直达原文:【可观测系列】传统企业可观测建设之路 

数字化转型与可观测的关系

在数字化转型的浪潮中,我们面临着将“线下业务线上化”及实现“业务快速创新迭代”的迫切需求,这也进而要求支撑业务的应用系统更加敏捷、可扩展性更高。

因而,分布式、云原生是企业应用架构的发展方向。

分布式架构下,各种IT对象如消息队列、缓存、分布式数据库等层出不穷,并且组件间的调用关系错综复杂。

此时,传统IT监控只能提供资源层面的状态警告,无法提供分布式应用故障诊断所需的更多有效信息,因此,一个面向应用面向故障的全栈可观测方案越来越成为企业IT运维的迫切需求。

30年过去,终迎来第二代监控——可观测

IT监控作为IT运维之眼,是IT运维第一个建设的工具,追溯IT监控工具历史,已有30年之久。传统IT监控的发展,主要是在监控对象以及在监控能力(如指标、Log、Trace)的不断扩展,发展至今,已形成众多从IaaSSaaS层的监控工具。据Gartner市场调研数据显示,超过70%的中大型企业拥有10个以上的IT监控工具,以满足各种IT监控需求。

监控工具越来越多,但每个监控工具却只能揭示业务和应用的部分问题,且工具能力重合、工具数据互为烟囱,这导致用户难以联动整合所有监控,面向整个业务和应用进行全面的故障诊断。

传统工具发展的这些瓶颈和问题在可观测体系中得到了完美解决。

传统监控与可观测的主要区别如下:

简单来讲,监控主要聚焦在感知,可观测还聚焦于问题出现之后诊断分析和隐患发现。

基于四大支柱数据设计可观测体系

要做到面向应用、面向故障的可观测,我们需要为整个应用系统的生产运行拓扑进行建模,并将应用所有相关组件的各种观测数据进行有机聚合,因此,可观测体系设计的核心理念在于对Metirc、Log、Trace、Topology这四大支柱数据进行统一采集、统一治理和有机聚合。

这几个数据之间的关系如下:

  • Topology描述了一个应用包含多少个微服务、一个微服务包含多少个实例,实例运行在哪些Pod上,Pod又运行在哪些虚拟机上, 虚拟机连接了哪些存储,服务或实例间存在什么样的调用关系等资源配置和关联关系数据。
  • Topology提供了观测的元数据(资源及拓扑),作为Metric、Log、Trace的资源主体。但在某些场景下,Trace中发现的应用调用关系、Log中采集和发现的一些业务交易拓扑关系,也可以成为Topology中的数据来源。
  • 当一个IT对象的指标(Metric)存在告警时,我们需要基于Trace向上分析故障影响,向下追溯根因,也需要获取该对象的Log信息进行进一步的故障诊断。
  • 当一个微服务的调用(Trace)延迟或失败时,我们可以基于Metric和Log进一步分析相关对象的关键健康指标和日志上下文信息。

基于上述理念,可抽象可观测的数据模型如下:

  1. 面向应用系统部署情况构建从上到下(应用、微服务、实例、系统与虚拟化、硬件)的纵向分层对象模型关系;
  2. 基于APM调用关系构建横向的服务间调用实例调用关系;
  3. 每一个实例的状态信息,可通过各种采集手段获取相关的Metrix、Log、Trace监测数据。
  4. 当系统出现故障时,通过横纵向的关系和Metric/Log/Trace的告警聚合信息,实现自动化告警收敛和故障诊断,从而给出相关的根因推荐。

基于此设计,我们可以自动构建应用横纵向全景拓扑,感知应用故障点。

根据故障点实现上游故障影响分析和下游故障根因溯源。

可观测成熟度模型

可观测既包含了传统监控的技术,又包含了基于数据和AI的统一数据治理与智能根因分析以实现端到端的监控与分析的能力。可观测体系的建设不是一蹴而就的,也不是将传统监控体系推倒重来,而是一个基于科学建设路径和方法逐步演进的过程。

可观测成熟度模型如下:

L1【基础可观测】

  • 补全基础监控,以满足分布式时代各类云、容器、分布式组件等的监控要求;
  • 对各个监控工具中的告警事件进行统一告警汇聚、告警丰富、告警收敛、告警分派、告警分析、告警处置、告警复盘的全生命周期管理。

L2【应用可观测】

  • 基于数据平台思路建设集中监控,接入企业当前已有各类监控工具,实现统一对象管理、指标管理、策略及视图管理等;
  • 补全APM能力实现应用性能监控

L3【因果可观测】

  • 将四大支柱数据融合打通,通过各种自动构建的排障拓扑提供故障辅助定位能力。

L4【主动可观测】

  • 在L3之上,基于上下文分析能力和AI能力,实现故障的主动式定位和根因推荐;
  • 基于知识库和大模型能力,实现故障处置预案推荐,并提供监控、告警、日志小助手与运维人员进行实现紧密协同。

L5【业务可观测】

  • 基于行业特征,实现对关键业务交易活动和交易链路的监控,将业务监控与应用可观测无缝集成以进一步保障业务稳定运行;
  • 联动ITSM、自动化等实现端到端的故障预防、发现、定位、处置与复盘改进的“1-5-10”业务连续性管理能力;
  • 基于算力调度能力实现业务智能扩缩容和成本优化。

可观测平台功能设计

可参考下图进行可观测平台的功能设计:

  1. 以数据中台思路建设底座,以满足各类数据的采集清洗和各类外部监控工具数据的接入;
  2. 建设统一观测能力中心,包含面向Metric、Log、Trace的各项观测基本能力;
  3. 构建统一观测场景,包含基础集中监控、日志和APM、统一告警场景,也包含观测融合相关全链路监控、故障辅助定位等场景。

可观测平台建设过程

建设重点1——观测元数据建模治理【Topology】

  1. 面向应用建立观测元数据模型,包括描述应用的生产和灾备环境,描述应用的可用区或分布式地域集群,描述组成应用的子系统或模块(微服务)。
  2. 模块(微服务)包含一组实例,实例则是运行于虚拟机或容器上。微服务之间存在调用关系,微服务也与消息队列、数据库等基础组件存在访问关联关系。
  3. 观测元数据建议使用企业统一的CMDB进行存储。一方面可以充分利用CMDB中自动采集&手动维护的各类IT资源对象数据,另一方面基于统一对象配置数据与ITSM、自动化等运维工具联动实现故障定位(如从ITSM获取该对象近期的变更审批信息,从自动化平台获取该对象近期的操作记录以作为辅助故障定位)和处置自动化。

建设重点2——指标体系建模治理【Metric】

  1. IT资源对象种类多,IT存量监控工具数量大,因此面向硬件、系统、云、OS、虚拟化、中间件、数据库等基础资源的集中监控能力是可观测体系建设的基础。
  2. 集中监控的关键前提是统一指标治理,包括对每种资源对象的指标定义、指标梳理和指标消费等。
  3. 集中监控的建设过程是扩展种类采集插件覆盖各种IT对象,或提供便利的数据接入能力接入其他监控工具的数据。

建设重点3——统一日志管理【Log】

可观测平台需要提供统一的、丰富的日志采集、清洗、检索与展示能力以覆盖各类设备日志管理需求。

建设重点4——APM实现故障追踪【Trace】

APM是分布式系统的关键监控能力,通过APM可以对应用的四个黄金指标进行监控,可以对服务件、服务与组件间的调用状态进行监控,还可以实现对服务接口级、方法级的故障发现与诊断分析。

建设重点5——实现告警的全生命周期治理【Alert】

  1. 告警接入:通过可扩展的告警源插件完成各类告警事件的接入;
  2. 告警丰富:联动CMDB完成告警丰富,包括运维人员、告警对象配置信息等;
  3. 告警抑制:基于多种灵活的告警收敛方法实现告警收敛,避免告警风暴;
  4. 告警分派:将告警事件自动分派或手动分派给相应的运维人员进行处置;
  5. 告警分析:基于告警对象的Log、Trace、Metric,基于告警对象的上下游关联对象的状态信息,基于告警对象的近期变更或运维信息进行展示分析;
  6. 告警处置:联动自动化平台进行告警的处置。

基于统一告警中心的建设,实现一条告警的全生命周期流转闭环管控。

建设重点6——基于AI与LLM的智能可观测【AI】

通过集成AI能力实现动态阈值、告警聚合收敛、时序预测、日志聚类分析、多维下钻与根因定位等智能可观测能力。

基于LLM可以构建可观测智能小助手,如展示告警详情:

挖掘告警相关故障信息:

获取故障推荐和交互式故障自动化处理:

建设重点7——基于应用可观测向上构建业务可观测【Business】

在数字化时代,业务的稳定生产运行都会反馈到应用系统的各项运行指标上,运维的最核心目标也是保障业务的稳定生产运行。

当我们实现了应用可观测后,基于应用可观测能力去构建面向上层各类业务活动、业务场景的可观测,就会水到渠成且事半功倍。

业务观测领域中,最重要的是对各类业务交易场景以及各个应用系统的业务黄金指标进行监控,例如银行,有各种支付、转账、查额、还款等场景,这些交易的交易链路如何自动构建,如何监测每一笔交易的效率和质量,如何在交易异常的情况下迅速找到问题点并进行解决,是业务可观测的重点建设内容。

业界基于业务监控的有三大技术:APM的交易链路自动构建与黄金指标监测、应用标准化日志的交易链路自动构建与黄金指标监测、网络流量镜像分析的交易链路自动构建与黄金指标监测。

三者各有优劣点,如基于APM的技术面临着全量采集给应用带来的性能压力、基于日志则需要应用进行标准化日志输出的改造、基于网络流量则面临着网络丢包、数据量巨大和云原生SDN架构下的流量采集技术壁垒等问题。企业需要根据自己的实际情况选择合适的技术。

最后,业务可观测的技术还需要能够联动应用可观测,从而实现从业务指标到具体问题资源对象联动起来的根因定位。

可观测平台三年建设计划建议

前面提到,可观测不是将现有监控推倒重来,而是基于现状进行规划建设。对于大部分传统企业而言,可参考以下三年建设计划:

第一年:感知&治理

  1. 构建硬件、云、容器、系统、组件监控等统一基础监控感知能力;
  2. 构建统一日志监控感知能力;
  3. 构建统一应用调用链监控感知能力;
  4. 构建告警的统一闭环治理能力。

第二年:定位&业务

  1. 面向应用构建故障的快速定位能力
  2. 融合APM(Trace)、基础监控(Metric)、日志(Log)、CMDB拓扑(Topology)进行辅助故障定位;
  3. 构建各类可视化应用拓扑提供故障上游影响分析能力,提供故障下游溯源分析能力。
  4. 面向业务提供监控与故障定位能力
  5. 实现业务指标监控与业务交易链路观测;
  6. 结合应用可观测能力实现业务问题的故障定位。

第三年:智能&扩展

  1. 结合AI和大模型进一步升华可观测能力
  2. 基于AI实现根因定位、动态阈值、告警聚类、离群检测、容量预测、智能扩缩容、算力调度能力;
  3. 基于大模型与知识库的处置预案推荐,基于自动化的故障自愈。
  4. 融合网络监控工具和用户监控工具实现全栈监控
  5. 融合NPM、eBPF技术将网络流量级诊断能力丰富到故障定位能力中;
  6. 融合RUM(真实用户监控)实现端到端的全栈可观测能力。

直达原文:【可观测系列】传统企业可观测建设之路 

系列文章

【观点洞察】

大模型在可观测的增强

传统企业可观测建设之路(本期)

企业的分层运维对象监控指标体系建设

企业如何实现运维故障加速闭环的告警体系建设

企业运维排障最后一公里:日志体系建设

企业应用观测中枢建设

【产品剖析】

可观测整体功能介绍(本期)

告警全生命周期管理

基础组件监控

容器监控

云平台监控

硬件监控

应用服务拨测

日志统一管理

调用链追踪

业务监控

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
可观测系列——大模型在 IT 运维可观测性的应用
随着云计算、分布式、微服务等前沿技术的广泛应用,现代IT系统架构已经从传统的单体结构演进到分布式和云原生架构。这种转变虽然带来了灵活性和扩展性的显著提升,但同时也极大地增加了企业IT运维的复杂性,尤其是在构建有效的可观测性系统方面面临着前所未有的挑战。
嘉为蓝鲸
2025/04/09
710
可观测系列——大模型在 IT 运维可观测性的应用
嘉为蓝鲸张敏:运维体系为什么要基于平台化建设
涉及关键词:一体化运维、平台化运维、数智化运维、运维PaaS、运维架构治理、蓝鲸等。
嘉为蓝鲸
2024/01/30
1.1K0
嘉为蓝鲸张敏:运维体系为什么要基于平台化建设
LLMOps+DeepSeek:大模型升级一体化运维
蛇年伊始,DeepSeek凭借其卓越表现火爆出圈,让AI大模型瞬间成为街头巷尾热议的焦点,也让大众重新燃起对AGI(通用人工智能)“平民化”的信心,DeepSeek通过先进的模型架构,带来的高效率与低成本优势,加快了应用场景的百花齐放。
嘉为蓝鲸
2025/02/21
6170
LLMOps+DeepSeek:大模型升级一体化运维
日志数据于可观测的意义及日志运维场景和工具实践
首先我们来看一个企业中比较普遍的现象,当系统发生故障时,运维人员通常关注指标类数据,而研发人员更“钟情“于日志数据,为什么会有这种区别呢?
嘉为蓝鲸
2023/03/22
1.1K0
日志数据于可观测的意义及日志运维场景和工具实践
2023爱分析・可观测性平台市场厂商评估报告:乘云科技
IT运维是企业信息化建设中不可或缺的一环,其作用在于确保系统稳定性、提高效率和降低成本,对企业的业务生产和服务质量有着至关重要的影响。自十四五规划以来,随着企业数字化转型的加速推进,以及信创转型的大规模铺开,企业IT架构复杂度日益上升,直接引发了对自身运维体系的更高要求。但与此同时,在政策、需求及供给端的多重因素驱动下,IT运维产业也迎来了前所未有的重大发展机遇,具体如下:
爱分析ifenxi
2023/05/09
3700
2023爱分析・可观测性平台市场厂商评估报告:乘云科技
云原生时代的应用端到端可观测体系如何构建?
传统监控体系是面向静态资源通过主动拨测方式构建的时序监控指标视图,其前置条件需要明确观测对象及观测指标,基于指标体系工程师能够了解哪些系统是确定工作的。在云原生观测场景下指标覆盖不全、业务侵入性大、数据关联性差、缺乏基于业务视角异常感知机制等问题凸显,传统监控能力难以适应云原生架构动态变化、服务依赖复杂、信息组织多样的现实问题,无法从全业务流量链路上有效定位问题,故障处置不及时整体业务连续性遇到较大挑战。
嘉为蓝鲸
2022/11/01
9360
云原生时代的应用端到端可观测体系如何构建?
大模型在蓝鲸运维体系应用——大模型在可观测的增强
可观测性是指对于一个软件系统的运行状态和行为是否可以被监测和分析。它涉及日志记录、性能指标收集、错误追踪等技术手段,用于帮助开发人员诊断和解决软件系统中的问题。
嘉为蓝鲸
2024/06/17
5690
2022,我们该如何理解可观测技术
作者 | 王一鹏 本文受访嘉宾:蒋志伟,爱好技术的架构师,先后就职于阿里、Qunar、美团,前 pmcaff CTO,目前 OpenTelemetry 中国社区发起人,https://github.com/open-telemetry/docs-cn 主要维护者。 有心人可能已经发现,可观测问题正在悄然成为 IT 行业的热门话题。尤其是从 2021 下半年到今日的一年间,对可观测问题的讨论,不断见诸技术圈内,大有愈演愈烈之势。 从技术的角度看,这是因为微服务架构逐渐普及,导致可观测问题变得十分复杂。
深度学习与Python
2023/03/29
6000
2022,我们该如何理解可观测技术
企业应用观测中枢建设
随着科技发展进步、民众生活富足,线下业务线上化、线上业务复杂化趋势愈演愈烈,各行各业投入巨大人力物力财力进行企业IT建设。随之而来的是线上业务数量的爆炸式增加与业务规模的剧烈扩张,这对企业IT运维人员提出了全局把控能力的重大挑战。
嘉为蓝鲸
2024/07/29
1190
运维管理一体化:构建多维一体化的运维体系
涉及关键词:一体化运维、平台化运维、数智化运维、运维PaaS、运维工具系统、蓝鲸等。
腾讯蓝鲸助手
2024/07/03
1.9K0
风险感知场景(一)之“监控、拨测、巡检、可观测性”
从发现风险角度,我们经常会从监控、拨测、巡检、可观测性、演练、混沌工程等角度发现风险。上周和必示的温博后聊了一下风险感知,今天理理思路,摘“监控、拨测、巡检、可观测性”4点做个简述,再看看风险感知场景的切入点。
彭华盛
2022/11/16
3.5K1
风险感知场景(一)之“监控、拨测、巡检、可观测性”
嘉为蓝鲸张敏:构建多维一体的运维体系
运维一体化是近几年被广泛提起的概念,有各种解读和实践形态,在到具体的技术架构和管理实践前,我们还是要对一体化有几个基本定义,这样才能更为严肃地探讨运维一体化的本质。
嘉为蓝鲸
2024/01/25
1.6K0
嘉为蓝鲸张敏:构建多维一体的运维体系
嘉为蓝鲸张敏&周宗沛:数据与智能运维场景实践
涉及关键字:一体化运维、平台化运维、数智化运维、AIOps、运维PaaS、运维工具系统、蓝鲸等。
嘉为蓝鲸
2024/01/30
5150
嘉为蓝鲸张敏&周宗沛:数据与智能运维场景实践
2023,可观测性需求将迎来“爆发之年”?| Q推荐
作者 | 鲁冬雪 随着 5G、云计算、微服务等技术的广泛应用,企业所面临的 IT 运维环境越来越复杂,需要运维的系统不仅数量多,而且网络架构复杂、基础设施多样。在信息化建设日益普及的当下,快速提升企业 IT 资产管理能力开始成为企业迫切解决的问题。 过去一年,可观测技术得到了极大关注,并被 Gartner 列为 2023 年十大战略技术趋势之一。然而,企业在实际落地可观测的过程中依旧面临很多问题,比如如何选择合适的方案、平衡新旧系统之间的关系等等。 其实,一个企业 IT 系统的可观测性建的好不好,在新员工
深度学习与Python
2023/03/29
5800
2023,可观测性需求将迎来“爆发之年”?| Q推荐
运营商实战成果:分布式架构可观测能力建设全攻略
近年来,随着企业业务规模日益庞大,IT架构日益复杂,云计算、微服务等一系列技术在各企业内部开始逐步探索落地。技术的发展不仅对企业内部运维管理产生了极大的挑战,对于监控体系也提出了更高的要求。
嘉为蓝鲸
2024/09/27
1440
vivo 服务端监控体系建设实践
经过几年的平台建设,vivo监控平台产品矩阵日趋完善,在vivo终端庞大的用户群体下,承载业务运行的服务数量众多,监控服务体系是业务可用性保障的重要一环,监控产品全场景覆盖生产环境各个环节。从事前发现,事中告警、定位、恢复,事后复盘总结,监控服务平台都提供了丰富的工具包。从以前的水平拆分,按场景建设,到后来的垂直划分,整合统一,降低平台割裂感。同时从可观测性、AIOps、云原生等方向,监控平台也进行了建设实践。未来vivo监控平台将会向着全场景、一站式、全链路、智能化方向不断探索前行。
2020labs小助手
2023/01/03
1.2K0
「嘉年华观会」腾讯云可观测平台(TCOP):构建云原生一体化可观测体系
在「嘉年华观会」中介绍了腾讯在云原生安全方面的创新技术。通过边缘计算、零信任架构等方式,腾讯为云原生环境中的应用和数据提供了全面的安全保障。这部分内容可以融入 TCOP 体系中,强调腾讯云的安全解决方案如何在生产环境中为企业提供支持。
数字扫地僧
2024/09/11
1880
「嘉年华观会」腾讯云可观测平台(TCOP):构建云原生一体化可观测体系
企业如何实现运维故障加速闭环的告警体系建设
告警管理是企业运维管理中的一个重要环节,它可以帮助企业实时监测和诊断业务系统的状态,并及时发现可能存在的故障或异常情况。但是,在实际操作中,企业告警管理也面临一些困扰,主要包括以下几个方面:
嘉为蓝鲸
2024/08/09
4140
可观测指标管理体系建设落地及插件功能设计&生态打造
之前我们分享了可观测体系整体规划建设战略与落地实践,而进一步深入可观测体系中,在数字化转型和国产化大背景下,监控的对象种类繁多,新技术新对象层出不穷,企业内部监控体系的建设、监控工具支撑都面临极大的挑战:传统的监控系统无法快速满足国产化的要求,也无法快速扩展支撑快速变化的监控需求,各种监控指标混杂一起,难以管理和分析。
嘉为蓝鲸
2023/03/13
9340
可观测指标管理体系建设落地及插件功能设计&生态打造
长文|基于Zabbix的可观测性监控
本文整理自王小东在2022Zabbix峰会演讲分享。ppt可在公众号后台回复“ppt"。
Zabbix
2023/07/03
5680
推荐阅读
相关推荐
可观测系列——大模型在 IT 运维可观测性的应用
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档