本文主要介绍运维CMDB的设计思路,恰当的CMDB设计,对运维效率的提升,如收敛告警和故障自愈等,有着意向不到的效果。
在运维自动化平台的设计理念中,我们一直提倡“减少运维对象”,并将运维对象进行抽象化、模型化、配置化的录入CMDB中管理,进而让运维工具有途径消费CMDB中的数据,让运维自动化流程能够通过接口维护CMDB中,各个运维对象的属性与状态,这是构建自动化运维体系的配置基础。
那么CMDB主要记录怎样的内容,在织云面向业务架构的CMDB实践中,将CMDB的配置数据主要分为几类(更多配置需求可扩展):
每种运维对象都包含其各自的属性和状态配置,如:
运维对象与运维对象之间需要建立规则或关系,如下图:
言归正传,CMDB的设计与告警收敛和故障自愈有什么联系呢?让我们一起对运维常遇到的基础告警做一些问题归类:
该面向业务架构设计的CMDB系统发挥功效的时候了,让我们一起看一个简单的示例:
一级业务 | 二级业务 | 模块 | 架构层 | 运营状态 | 负责人 | 软件包 | 进程 | 端口 | IP集群 |
---|---|---|---|---|---|---|---|---|---|
QQ空间 | feed信息中心 | 好友点赞 | 逻辑SPP | 运营中 | 大梁 | nginx-1.9 | nginx | 8080 | 192.168.1.10192.168.1.11 |
承载着运维标准化规则的CMDB,每个字段都包含着一定的运维管理逻辑与自动化处理的能力,如:
织云构建的体系化运维能力,在大量的基础告警爆发时,基于运维规则与CMDB的配置记录,我们将会得到如下场景的运维自动化能力:n容量去阈值:将IP集群的容量,按业务的纬度收敛成为单指标,metis单KPI智能精准分析,无需阈值管理。
正如上述简单的CMDB案例所达到的运维能力,对告警收敛和故障自愈的效果是显著的。在此,笔者希传递CMDB的设计思路:
简单的CMDB设计不仅可承载大量的运维标准化规则,在腾讯织云的运维实践经验中,对CMDB中的数据加以利用,更能在AIOps时代发挥更大的威力。
从运维技术转型到运维产品经理,让我有机会从一个全新的角度来看待和总结过去做过的运维系统。在和很多企业客户沟通时,我发现了一个典型的问题,传统的运维思路总习惯于“头痛治头脚痛治脚”。回顾近10年在腾讯的运维技术实践中,腾讯织云运维体系的建成,是有意或无意的由业务运维主导进化而来的,下次有机会再深入和大家探讨CMDB在更多运维场景的实践。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。