前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >探秘全栈可观测五层架构,嘉为蓝鲸全栈智能观测中心助力运维进阶

探秘全栈可观测五层架构,嘉为蓝鲸全栈智能观测中心助力运维进阶

原创
作者头像
嘉为蓝鲸
发布于 2025-04-14 10:22:35
发布于 2025-04-14 10:22:35
1350
举报
文章被收录于专栏:AIOpsAIOps

直达原文:【可观测系列】国产化替代实践:嘉为蓝鲸全栈智能观测中心对比IBM Tivoli

在数字化转型与国产化替代的双重驱动下,传统IT监控工具正面临前所未有的挑战。以IBM Tivoli为代表的国外监控产品,因厂商支持力度减弱、本土化服务退化及技术架构陈旧等问题,已难以满足企业对国产化、自主可控和云原生环境的迫切需求。

随着Tivoli核心产品(如ITM/ITCAM、Netcool系列)陆续停服,存量用户亟需寻找既能覆盖全栈观测场景,又具备深度国产化适配能力的替代方案。嘉为蓝鲸全栈智能观测中心·鲸眼(以下简称“全栈智能观测中心”)作为腾讯大规模IT生产环境锤炼出的全栈智能观测中心,凭借一体化融合设计、开箱即用的信创生态支持、云原生监控能力以及本土化服务优势,正成为企业替代Tivoli的高性价比选择。

本文将通过现状分析、场景覆盖、国产化适配等维度,解析全栈智能观测中心如何破解传统监控工具困局,助力企业构建自主可控的智能运维体系。

01.全栈智能观测中心与Tivoli现状分析

1)全栈智能观测中心:深度融合,自主可控

  • 自腾讯大规模IT生产环境孕育诞生的解决方案级别的产品平台,从数据模型到流程管控再到功能操作和展现,全部是一体化融合设计,而非简单的产品组合和模块堆叠;
  • 所有开发测试和部署运营支持团队均在国内,产品持续迭代,快速服务响应,完全自主可控;
  • 一体化融合设计,支持不同规模的IT环境运维监控需求,支持容器云部署和弹性伸缩;
  • 单一Agent(GSE Agent)结合采集插件方式,实现运维监控相关的不同类型数据采集获取、自动化操作(作业脚本与命令)和文件分发;
  • 集成告警中心、监控中心、日志中心、应用性能观测中心(APM)和业务监控五大产品能力,形成全栈智能观测中心。

2)Tivoli:多源技术组合,本土化适配受阻

  • 核心产品能力通过收购业界优秀公司实现技术组合,如系统应用监控产品ITM/ITCAM,收购自20多年前的Candle,Netcool系列产品(OMNIbus, Impact, ITNM, NCM,NPM等)收购来自十多年前的Micromuse公司,Instana也是三年前新收购的公司;
  • 产品专业性虽强,但可视化效果一般,且操作和使用门槛很高,遇到产品问题时可能都需要原厂商的专业人员才能支持解决;
  • 传统产品如ITM/ITCAM,及Netcool系列产品均为单体式架构设计,需要搭建之初量体裁衣,无弹性伸缩,后续扩充也需要用户投入大量人力时间;
  • 本地服务支持团队近年萎缩严重,最近更是关闭了IBM中国研发实验室,这也说明在国内已经终止了IBM产品相关的所有本地化开发和支持工作;
  • 传统产品如ITM/ITCAM、Netcool/OMNIbus等已陆续宣布停止厂商支持,迫使存量客户要么选择继续复购升级,要么寻找其他监控替代品。

3)全栈智能观测中心与Tivoli的监控能力替换

(备注:容量管理与服务器管理属于基础设施运维范畴,不在可观测性(Observability)的能力覆盖范围内。作为全栈可观测平台,全栈智能观测中心当前暂未集成这两类功能模块。但嘉为蓝鲸已提供独立的解决方案,包括智能报表系统和自动化运维平台,可有效满足相关需求。)
(备注:容量管理与服务器管理属于基础设施运维范畴,不在可观测性(Observability)的能力覆盖范围内。作为全栈可观测平台,全栈智能观测中心当前暂未集成这两类功能模块。但嘉为蓝鲸已提供独立的解决方案,包括智能报表系统和自动化运维平台,可有效满足相关需求。)

以下将通过具体场景对比,进一步阐述全栈智能观测中心的核心价值与落地实践。

02.全栈智能观测中心与Tivoli的监控场景对比

IBM Tivoli 的监控和事件管理通常由多个子产品组合而成,例如 ITM (IBM Tivoli Monitoring) 主要负责基础架构监控,ITCAM (IBM Tivoli Composite Application Manager) 侧重于应用性能和更深层次的组件监控,而 Omnibus (Netcool/OMNIbus) 则专注于强大的事件管理和关联分析。这种组合方式功能强大,但也可能带来较高的复杂度和维护成本。

全栈智能观测中心旨在提供一个更现代化、更统一、更能开箱即用的全栈可观测平台,在大部分的监控场景中,全栈智能观测中心一个产品就能实现Tivoli三个子产品的效用

1)基础架构与组件监控

全栈智能观测中心提供开箱即用的监控能力,覆盖操作系统、数据库、中间件等基础组件,支持通过插件化方式对接各类信创环境。相较于ITM的基础资源监控和ITCAM的组件级监控,全栈智能观测中心通过统一数据模型实现指标、日志、追踪、告警数据的融合采集,显著降低了多系统集成的复杂度。平台提供SDK、标准协议和自定义插件三种接入方式,满足企业级全栈观测需求。

业务全景观测
业务全景观测
业务资源纵览
业务资源纵览
资源详情-指标视图
资源详情-指标视图
组件监控列表
组件监控列表

2)虚拟化与容器监控

全栈智能观测中心同样和Tivoli一样具备虚拟化监控能力,支持OpenStack、VMware ESX 等虚拟化平台的监控数据接入的同时,还支持对云环境进行一体化纳管,支持插件化的方式对公有云和私有云平台进行扩展监控。

除了虚拟化监控,全栈智能观测中心在容器化这一现代化关键技术领域也具备明显优势。对于正在采用或计划采用容器技术 (如 Docker, Kubernetes) 的企业,相较于Tivoli对传统架构的强依赖,全栈智能观测中心支持接入原生Kubernetes的容器监控能力,提供从基础设施到PaaS层的完整监控链路,有效支撑企业云原生转型。

云平台监控概览
云平台监控概览
容器监控资源列表
容器监控资源列表
容器资源详情-指标视图
容器资源详情-指标视图

3)硬件设备监控

在硬件设备监控领域,Tivoli更多的是通过SNMP协议实现网络设备性能和可用性的监控,对于其他的物理机设备和存储设备,缺少直接有效的监控方式。而全栈智能观测中心的硬件监控支持多种带外协议的对接以及多种数据类型的采集:基于SNMP、IPMI、SMI-S、Trap和Syslog协议的指标采集及日志采集,实现硬件设备的指标、日志、告警的统一监控。

硬件监控详情-指标视图
硬件监控详情-指标视图
网络拓扑
网络拓扑

4)应用性能监控

Tivoli体系中的ITCAM虽然提供APM能力,但常局限于对特定应用的监控,如SAP和其他企业资源规划(ERP)应用程序。与其他APM工具相比,ITCAM的集成能力非常有限,且安装复杂,用户界面陈旧等原因难以在国内推广。

而全栈智能观测中心则采用现代化的探针埋点服务进程的方式,自动探测分布式服务端到端调用链路,自动生成服务调用拓扑,从应用、服务、接口、调用 4个层次层层深入,监控应用的健康状态和调用性能;并支持基础资源监控进行联动和下钻分析,辅助问题根因分析,提升问题定位效率。同时还支持应用服务调用视角、应用资源关联视角、服务分析视角、接口分析视角、Trace调用链路视角多视角分析查看和追踪问题。

应用观测
应用观测
应用详情-链路拓扑
应用详情-链路拓扑
调用链检索
调用链检索

5)告警事件闭环能力

Tivoli将高级事件处理能力(如去重、丰富、关联)集中于 Netcool/OMNIbus,子产品ITM中只具备基本的告警列表、规则和处理能力,并且事件规则的配置需要专门的技能进行脚本化配置和维护。

全栈智能观测中心则将从告警管理、规则配置、处理、自动化转工单到抑制、屏蔽、丰富、关联分析等全流程能力内建于平台。其核心优势在于提供了可视化的告警规则配置界面,大幅降低了使用门槛,使普通运维人员也能轻松掌握和维护,促进告警规则的持续优化和知识沉淀,从而不断提升告警的准确性和有效性。

(Omnibus复古的配置页面,理解和配置门槛都很高)
(Omnibus复古的配置页面,理解和配置门槛都很高)
鲸眼告警闭环流程
鲸眼告警闭环流程
告警源数据丰富配置
告警源数据丰富配置
告警策略配置
告警策略配置

03.全栈智能观测中心替换 Tivoli 事件规则实操

截至目前,全栈智能观测中心团队已经在近十个项目中将 IBM Tivoli 替换为全栈智能观测中心产品,一个核心且常见的需求是将Tivoli系统中长期积累的事件规则迁移至全栈智能观测中心平台。然而,这项任务面临一个关键挑战:Tivoli的事件规则通常以脚本形式存在,这些脚本往往缺乏清晰的文档记录,甚至客户自身也难以完全解读其复杂的逻辑。这种不透明性直接导致在全栈智能观测中心中准确、完整地复现这些关键规则变得异常困难。

过去,这一迁移过程高度依赖具备深厚Tivoli专业知识的专业人员进行人工分析和解读,不仅耗时费力,实施效率也因此受到极大限制,项目周期常常被拉长。

幸运的是,随着大语言模型(LLM)技术的兴起与应用,全栈智能观测中心团队探索并实践了一套创新的解决方案。我们现在可以利用大模型对Tivoli的规则脚本进行自动化分析,智能地生成一份详尽且易于理解的规则说明清单。

具体操作流程得以显著简化:实施团队现在只需将客户提供的Tivoli规则脚本文件,输入大模型进行分析,即可快速获得一份清晰、结构化的规则逻辑描述文档。基于这份文档,运维人员便可以参照具体的说明,在全栈智能观测中心友好的可视化界面中高效、准确地完成相应告警规则的配置。

(Tivoli 导出的规则脚本清单)
(Tivoli 导出的规则脚本清单)
(自动化分析后的脚本说明清单)
(自动化分析后的脚本说明清单)

04.更多全栈可观测能力

全栈智能观测中心作为嘉为蓝鲸倾力打造的一款全栈可观测产品,经过持续的沉淀和迭代,目前已经实现了业务全栈系统资源监控、K8s容器监控、云平台监控、硬件设备监控、网站服务拨测、日志统一管理、应用性能观测、业务场景监控、告警闭环管理等多个领域的可观测场景。

为了实现上述各种观测场景的落地,产品设计上结合PaaS+SaaS的理念,抽象各个场景的公共能力,融合成一套底层能力框架,并且能够和企业内的运维体系工具联动集成,支撑上层的场景扩展,以适应企业不断变化的可观测场景和管理诉求。

图中由下而上,依次是监控对象、数据集成、数据中台、能力中心、观测场景五层以及外部集成模块。

  • 监控对象:按照业务系统分层逻辑,划分归纳企业内需要监控对象,分别有数据中心的机房机柜动环对象,计算、存储、网络、安全等硬件设备,虚拟化、云、OS、容器等系统资源,数据库、中间件等通用基础组件,业务、应用场景、服务等业务应用;
  • 数据集成:基于Agent、Plugin、SNMP、Script、JMX、JDBC/ODBC、OT协议、SDK探针、拨测、数据上报管道等多种数据接入的渠道,实现性能指标数据、日志数据、Trace链路数据、事件数据、告警数据的集中接入;
  • 数据中台:集中提供数据清洗、数据传输、数据存储、数据查询、数据计算能力;
  • 能力中心:按数据类型提供不同的数据处理能力。例如指标数据的检测、预测、关联、检索能力;日志数据的解析、关键字、聚类、检索能力;Trace数据的链路、拓扑、关系、分析能力;告警数据的去重、收敛、关联、根因分析能力;以及面向用户的仪表盘、报表、数据检索的视图能力;
  • 观测场景:按照可观测领域划分的监控中心、日志中心、应用观测中心、业务监控、告警中心五大核心场景,基于这些通用场景之上的数据联动分析场景,以及用户基于观测能力自行构造的场景;
  • 外部集成:可以两部分考虑:一是从外部系统采集数据,例如对接第三方的监控、告警、日志系统获取对应的数据进行集中管理;二是对接外部的系统进行联动管理,例如对接外部CMDB进行监控对象管理,对接外部的自动化系统和工单系统进行告警处置等。

05.结论

总的来说,在国产化替代与云原生转型趋势下,全栈智能观测中心凭借一体化云原生架构、全栈端到端可观测能力及信创生态支持,全面突破IBM Tivoli因架构陈旧、国产化适配不足、多产品割裂导致的运维瓶颈,助力企业通过优先替换容器监控、云平台监控及业务观测等Tivoli薄弱环节,快速实现从“被动救火”到“智能预防”的运维模式升级,为数字化转型奠定技术基石。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01.全栈智能观测中心与Tivoli现状分析
    • 1)全栈智能观测中心:深度融合,自主可控
    • 2)Tivoli:多源技术组合,本土化适配受阻
    • 3)全栈智能观测中心与Tivoli的监控能力替换
  • 02.全栈智能观测中心与Tivoli的监控场景对比
    • 1)基础架构与组件监控
    • 2)虚拟化与容器监控
    • 3)硬件设备监控
    • 4)应用性能监控
    • 5)告警事件闭环能力
  • 03.全栈智能观测中心替换 Tivoli 事件规则实操
  • 04.更多全栈可观测能力
  • 05.结论
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档