官网原文(免费申请演示):【嘉为蓝鲸×中大】首篇实战:对话触发k8s智能体,高效自愈集群故障
随着云原生技术的普及,Kubernetes(k8s)已成为企业容器编排的核心引擎。然而,其多层次架构与动态特性使得故障定位与资源调度效率低下,传统人工运维模式难以应对高速迭代需求。
中山大学计算机系陈鹏飞教授科研团队(陈鹏飞 | 中山大学计算机学院)与嘉为蓝鲸OpsPilot智能运维平台强强联合,基于中大在分布式系统、智能运维等领域的学术积累,深度集成大模型和K8s工具链,以联合研发的对话式智能体重构集群管理流程 ,推动运维模式从“人工救火”迈向“AI自愈”。
运维工程师小王深夜接到告警:“线上支付服务响应超时,请求成功率跌至80%”。他立刻打开电脑,却陷入一连串麻烦:
传统k8s运维的核心痛点清晰可见:
面对传统运维的痛点,OpsPilot基于LLM大模型与MCP协议工具调度能力,重构了集群管理流程,实现从被动响应到主动治理的跨越式升级。k8s智能体实现以下关键特性:
k8s智能体主要有三种使用形态:对话式触发,定时触发,API触发。所有形态均收敛至K8s Virtual SRE,由它协调工具执行和决策。执行过程存在关键分叉路径 ——通知路径(企业微信/钉钉)支持人工介入场景,而操作路径(API直连Kubernetes)驱动自动化修复,最终形成从触发入口到反馈出口的闭环:事件经由SRE与工具协同处理,直达集群操作,实现对Kubernetes环境的秒级敏捷响应,贯穿"诊断-决策-执行"全链路。
实现方式:用户通过自然语言输入(如聊天界面)提交User Query,直接触发规划智能体进行任务分解,将对话需求转化为结构化任务计划(如"检查指标、分析调用链、查询错误日志"),后续阶段由决策/推理智能体协同执行诊断。
实现方式:由控制面的任务调度模块预设周期性任务(如"每日凌晨巡检状态"),自动生成标准化的User Query输入,智能体结合运维手册生成例行任务计划(如"全链路性能扫描"),后续流程与对话式触发一致,最终输出周期性报告或告警。
实现方式:外部系统通过API接口传入结构化指令(如JSON格式的故障参数),绕过自然语言解析,直接注入任务计划或指定决策阶段的子工具(如"调用链智能体分析TraceID: XXX")。优先执行API指定的工具调用,数据面直接输出分析结果(如根因定位)至调用方,实现与其他运维系统的无缝集成。
这次介绍第一种形态——对话触发,下文通过三个示例问题带您直观地感受对话触发可以怎么用以及对话触发的作用,解锁零门槛集群掌控力。
(1)示例问题1:列出namespaces、pods、deployments 、services和nodes
智能体响应流程如下,智能体根据预设规则自动执行以下操作:
通过此功能可快速实现:
(2)示例问题2:诊断处于failed或pending状态的pods
智能体响应流程如下,智能体根据预设规则自动执行以下操作:
通过此功能可快速实现:
(3)示例问题3:查看整个集群的近期events
智能体响应流程如下,智能体根据预设规则自动执行以下操作:
通过此功能可快速实现:
当小王们深陷多集群切换、日志碎片化、资源配额僵局时,OpsPilot K8s智能体正以“自然语言驱动+AI闭环执行”重新定义故障响应流程:
中山大学计算机系陈鹏飞教授团队(广东省杰青、量子计算与软件研究所副所长)领衔团队聚焦云原生智能运维(AIOps) ,依托国家重点研发计划,深耕故障根因定位(LLM/GNN驱动)、零侵入追踪(eBPF技术)、日志优化及无服务器计算调度等关键技术,成果发表于ICSE/FSE/TSE等顶会顶刊,为运维自动化与系统稳定性提升提供核心学术支撑。
中山大学的云原生故障诊断算法 、零侵入追踪专利与智能调度模型注入OpsPilot,k8s运维正式迈入“技术自治”时代——学术精研与工程实践的共振,正让“AI自愈运维”从实验室走向产业核心场景。
还在等什么呢?嘉为蓝鲸智能运维OpsPilot体验环境已开放!点击下方链接,即可免费体验环境:https://bklite.canway.net/ops-console/home
加入社区,共创未来:想深入了解实现细节或参与项目共建?欢迎访问我们的 GitHub 开源项目,获取最新代码与技术文档:
https://github.com/TencentBlueKing/bk-lite/
嘉为蓝鲸智能运维OpsPilot是集知识库管理、技能配置、机器人管理及工具管理于一体的智能运维支撑平台,深度融合LLM大模型的语义理解、知识增强与多模态处理能力,聚焦运维领域,突破单一LLM能力局限,成为更懂运维的智能AI平台。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。