直达原文:可观测性中的指标数据治理:指标分级、模型定义与消费体系让系统运行更透明!
在当今数字化转型的浪潮中,可观测性(Observability)已成为企业运维管理的重要手段。通过收集和分析系统的各种可观测数据(涉及指标、日志、Traces、事件、告警等数据),构建一个全方位监控与分析体系,让运维团队能够在复杂多变的 IT 环境中实时了解系统内部的健康状况、性能表现以及故障原因。本文将以嘉为蓝鲸全栈智能可观测中心·鲸眼为例,探讨可观测性中的指标数据治理,包括指标分级、模型定义与消费体系。
指标分级是可观测性指标数据治理中的重要环节。嘉为蓝鲸全栈智能观测中心将指标分为核心指标(生死指标)、关键指标(告警指标)和常规指标(分析指标)。核心指标一般不会定太多,主要反映监控对象是活着还是死了,1 到 2 个即可。关键指标是看核心性能是否正常,参考谷歌定义的 SRE 四大黄金指标。常规指标可以根据实际的业务场景去考虑,主要用于告警分析时的数据参考。核心指标一定要配置告警基线,关键指标建议配置,而常规指标可以按业务场景考虑是否配置。后续通过不同指标的分级、权重,便可以很容易地建设起企业内的应用健康评估模型,衡量整个应用的健康情况。
模型定义是可观测性指标数据治理中的基础。嘉为蓝鲸全栈智能观测中心引入监控对象模型作为指标管理的载体,连接对象和指标。承载对象模型的分层体系,利用监控对象模型的树形分层设计,对应运维对象的分层体系,实现对象模型的建模和分层设计。例如对于组件服务层下的数据库,我们可以抽象出 MySQL、MSSQL、Oracle 等一系列监控对象,从而构建 3 层乃至 4 层的对象模型设计,灵活设配企业内的分层管理诉求。同时,监控对象模型通过与 CMDB 模型关联,将 CMDB 模型下的资源实例,纳管为监控对象模型实例,实现监控对象模型与资源实例的关联。关联插件采集,落地指标体系。监控对象模型通过关联插件或指标上报任务等方式关联指标,并以此作为指标数据的获取方式,确保这批指标都是真实可采集、可获取、可度量的指标,从而建设属于该对象的指标体系。
消费体系是可观测性指标数据治理的价值转化核心,嘉为蓝鲸全栈智能可观测中心通过构建分层、多元的指标消费场景,将原始数据激活为驱动业务发展与系统优化的 “数字引擎”。
这些场景的构建,不仅提升了系统监控管理效能,更推动企业从被动排障向主动优化转型。通过深度挖掘指标数据价值,消费体系让系统运行透明化,为企业数字化转型筑牢数据驱动根基。
综上所述,嘉为蓝鲸全栈智能可观测中心在可观测性中的指标数据治理方面,通过指标分级、模型定义与消费体系的建设,为企业提供了全面、高效的可观测性解决方案。这不仅有助于企业实时了解系统内部的健康状况、性能表现以及故障原因,还能提升运维效率和系统稳定性,为企业的长远发展奠定坚实基础。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。