
你好,我是悟空。
之前我在学习 CodeBuddy AI 编程工具时,就自己搭了一个 MCP Server 用来部署网站,通过用自然语言对话的方式实现自动化部署,算是一个 AiOps 的缩影。详见这篇文章:巧用智能体+100行代码的MCP服务,打造一个简易版“智能化运维”平台

我在工作中不断思考,如何利用 AiOps 的思想来节省运维的成本,提高工作的效率,为公司带来更大的价值,通过在学习 TiDB 的过程中,我们是否可以将 TiDB 和 AiOps 结合在一起了,本篇我们来探讨下。
2016 年,Gartner 创新性地提出了 AIOps 的概念,开创了人工智能辅助运维决策的新篇章。
AIOps 系统能够持续收集 IT 系统的各种运行数据,利用机器学习算法分析这些数据,及时发现异常情况、故障根源,并提供智能化的修复建议。它可以减轻运维人员的工作强度,提高故障处理效率。
而传统的运维方式往往依赖数个具备专业知识的运维人员对某个特定场景下的服务进行监控与决策。随着公司体量的成长,业务场景及数量指数型增长,传统运维将面临着决策时间长、决策难度大、人力成本高等问题,一旦出现重大决策失误,就可能造成巨大的商业损失。然而,海量的数据正好是机器学习的擅长领域。
从 2009 年双十一开始到现在,已经经历了 16 个双十一,数据规模呈现爆发式的增长,业务系统的复杂度也急剧上升,这对开发人员和运维人员的挑战性也更大。
在第一次双十一之后,国内各企业看到了互联网的威力,纷纷开始进行数字化转型,而数据就成为了企业的核心资产,但是互联网的一个特点就是数据量和访问量巨大,依靠传统的人工经验来运维已经不堪重负了。
我记得 2018 年国庆的时候,我们产品上线了一个充值币的秒杀活动,上线前还得提前报备给运维团队,且需要项目团队预估流量和服务器资源,然后运维同事在活动期间的进行扩容,而且运行期间还需要一名运维同事专门盯着访问流量和系统性能,这种传统运维方式凸显出了很多弊端,确实需要做出转变了。
正式在这样的背景下,TiDB 与 AiOps(智能运维)的结合,给我们营造了一个数据库智能运维的清晰的蓝图:自动化、智能化、可预测的新模式。
通过不断地对 TiDB 的学习,我了解到了 TiDB 作为一款先进的分布式数据库,核心优势在与弹性扩缩容、高可用性、强一致性和实时的 HTAP 能力。但是,这些优势也引入了新的复杂度。主要包括以下几个方面。
一个 TiDB 集群就包含了 TiDB-Server、TiKV、PD、TiFlash 等多个组件,监控的指标维度多,数量大。如下图所示,这个是 TiDB 的体系架构。

扩缩容、数据调度、负载均衡等都是动态进行的,传统静态阈值监控方式极易产生误报。
TiDB Server 内部包含多个模块,一个慢查询问题,可能源于 SQL 本身、业务负载激增、TiKV 磁盘 IO、网络延迟或 PD 调度问题,人工排查如同大海捞针。

传统的运维方式是预估需要的服务器资源,然后乘以 2 倍的资源,就是上线时资源,但随着业务的增长,如何科学地规划硬件资源,避免资源浪费或不足,也是对开发团队和运维团队一个比较大的挑战。
通过上面的几个痛点,我们知道单纯依赖运维人员盯着 Dashboard,手动分析日志和指标,已经无法有效管理大规模的 TiDB 集群了,我们需要更强大的武器 - AiOps。

image-20250910222244997.png
AiOps 通过融合大数据与机器学习算法,将运维数据(Metrics, Logs, Traces)转化为深入的洞察和自动化的行动。它为 TiDB 运维带来了以下几个核心价值。
如下图所示,这是一个案例的分析:


image-20250910223249579.png

image.png
如下图所示,这是一个 TiDB 智能容量规划系统:


全面、高质量地采集 TiDB 集群的全链路数据。
如下图所示:

将采集到的数据都接入到 AiOps 平台或数据湖中。
平台需要具备强大的数据加工、算法模型管理和可视化能力。
我思考了,TiDB 相比其他的数据库真的是具有天然的优势:
TiDB + AiOps 的结合,我觉得不是 1+1 的计算题,而是思维的转变,一场深刻的运维变革。就像现在我们团队一直用 Jenkins 来打包部署,和之前的人工打包相比,真的是彻底解放了双手,部署的时候还能喝一杯咖啡。而 TiDB + AiOps 可以将 DBA 从繁琐重复的日常监控和救火中解放出来,使其能更加专注于数据库架构设计、性能优化等更高层次的工作。
我之前写过 TiDB MCP Server 的实践文章,通过自然语言查询数据、操作数据库,我相信在未来,随着 AI Agent 的不断发展,我们可以通过自然语言与这套结合的系统进行交互,比如帮我分析下昨天的数据库性能瓶颈,或者帮我整理一份双十一的资源扩容计划等等。而 TiDB 依据自身架构的天然优势、以及开放的生态、友好的社区氛围,将走在这场变革的最前沿,真心祝愿 TiDB 越走越好!