Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AIOps实现思路思考

AIOps实现思路思考

作者头像
后场技术
发布于 2020-09-03 13:48:32
发布于 2020-09-03 13:48:32
1.3K0
举报
文章被收录于专栏:后场技术后场技术

世义

读完需要

3

分钟

速读仅需 1 分钟

我们将现有环境中的监控称之为眼,例如:APM、Zabbix、Flume、Tivoli、HMC、NPM、Netbase 等,通过眼获得了众多运维数据,包括:业务监控数据、中间件监控数据、数据库监控数据、IAAS 监控数据、PAAS 监控数据、系统监控数据、硬件监控数据、存储监控数据、网络监控数据、众多日志数据、变更数据等。

同时,我们将现有环境中的自动化工具称之为手,例如:IAAS、PAAS、Ansible、SaltStack 等,通过手执行自动化操作,包括:申请资源、部署应用、执行变更、处理故障等。现有环境中,眼和手都有比较成熟的解决方案,但眼和手之间存在鸿沟,无法自动联动,AIOps 正好可以充当桥梁,解决此问题。我们将 AIOps 称之为脑,接受眼的输入,做推理决策,让手去自动化执行。

AIOps 的实现思路大体可以分为四步:接入运维数据、建立知识图谱、编排智能算法、自动化执行。

1

接入运维数据。

将分散的运维数据集中起来,清洗入库(时序数据库、检索数据库等),包括:业务监控 KPI(交易数、成功率、失败率、响应率、响应时间)、基础监控 KPI(应用、数据库、中间件、操作系统、服务器、存储、网络等)、基础日志(应用、数据库、中间件、操作系统、服务器、存储、网络等)、告警信息、ITSM 变更信息。

2

建立知识图谱

接入 CMDB 和经验知识库数据:建立东西向的应用拓扑关系,即应用与应用间关系、服务与服务间关系;建立南北向的资源依赖关系,即服务依赖哪些机器;建立交易链;建立监控 KPI 与应用、服务、资源的关系。借助这些关系,分析故障传播链,进行根源分析。

3

编排智能算法

分为两个阶段:

  • 初级阶段是根据数据特征,人工选择算法,适配接入数据,再人工进行算法编排;
  • 终极阶段是根据书特征,自动选择合适的算法,自动进行算法编排,例如:小范围波动数据,选择静态阈值算法;周期类数据,选择同比算法;平滑类数据,选择环比算法。

4

自动化执行

自动化执行是确定性动作,一般企业有比较成熟的自动化方案,系统内的操作一般用自动化工具(例如 Ansible\SaltStack),系统外操作一般用云平台(例如 IAAS\PAAS)。

智能在于推理决策,推理决策是从不确定性向确定性无限逼近的过程,这个过程中需要不断地加入信息,100%的信息产生 100%的确定性,进行确定性推理决策,信息由数据和模型共同决定,往往数据不是完全的(可能维度不够,也可能数量不够),往往模型也不是最优的,这就决定了没有 100%信息,没有 100%确定性,因此是概率推理。

概率推理决定了不敢轻易用于自主决策,而是用于辅助决策,因为决策错误,可能会带来运维灾难,直接影响业务。做好 AIOps 的前提,是做好基础架构治理和数据治理,使得接入的数据是完全的,同时要不断地进行算法模型优化,使得算法模型是充分优化的,从而使得信息趋于 100%,确定性趋于 100%。不必 100%确定性,只要超过人的决策能力,就可以用 AIOps 进行自主决策。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-04-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 后场技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
AIOps落地的前提条件探索
Gartner在2016年时便提出了AIOps的概念,AIOps即人工智能与运维的结合,并预测到2020年,AIOps 的采用率将会达到 50%。
嘉为蓝鲸
2019/08/20
1.2K0
AIOps落地的前提条件探索
青铜到王者:AIOps 平台在腾讯的升级之路
在海量运营方法论的指导下,运维团队构建了体系化的运维能力,为众多产品保驾护航。
织云平台团队
2018/03/28
6.1K1
青铜到王者:AIOps 平台在腾讯的升级之路
2022爱分析· IT运维厂商全景报告
IT运维指的是企业IT 部门采用相关的方法、手段、技术、制度、流程和文档等,并借助各类运维工具,对IT软硬件运行环境、业务系统、运维流程、运维人员等进行综合管理。
爱分析ifenxi
2022/06/24
8970
2022爱分析· IT运维厂商全景报告
AIOps在美团的探索与实践——故障发现篇
AIOps,最初的定义是Algorithm IT Operations,是利用运维算法来实现运维的自动化,最终走向无人化运维。随着技术成熟,逐步确定为Artificial Intelligence for IT Operations——智能运维,将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维无法解决的问题。
美团技术团队
2020/11/03
1.3K0
AIOps在美团的探索与实践——故障发现篇
《AI高效运维体系建设创新》技术连载(二)
AI运维(AIOps)是将人工智能技术与IT运维相结合的新型运维方法论。其核心概念与原理包括:
蓝葛亮
2025/05/31
1580
《AI高效运维体系建设创新》技术连载(二)
[业界方案] 智能运维AIOps-学习笔记
目的是对于所学习的技术,大致知道其应用领域,技术特点和未来方向,看看目前工作中是否可以用到,或者以后选型时能够做到心里有数,顺便也可以梳理清楚自己的知识体系。
罗西的思考
2020/09/07
3.4K0
AIOPS 是什么
如今,在许多企业中,IT运维团队正在面临更加复杂和快速的环境变化。IT系统的复杂性和数量不断增加,这意味着运维人员需要花费大量时间来处理日常的事务,例如应用程序部署、监控、故障排除和性能优化等。为了解决这些问题,一种新的技术被开发出来,它就是AIOPS(人工智能运维),本文将介绍AIOPS的概念、应用和未来趋势。
王磊-字节跳动
2023/02/26
1.6K0
长文 | 重构CMDB,避免运维之耻
CMDB,几乎是每个运维人都绕不过去的字眼,但又是很多运维人的痛,因为CMDB很少有成功的,因此我也把它称之为运维人的耻辱。那么到底错在哪儿了?该如何去重构它?
用户1593318
2019/11/20
3.8K0
长文 | 重构CMDB,避免运维之耻
InfoQ访谈:为什么说运维的未来必然是 AIOps?
Gartner 在 2016 年时便提出了 AIOps 的概念,并预测到 2020 年,AIOps 的采用率将会达到 50%。如果 AIOps 真是未来运维技术的趋势,那技术人们又该如何自处?
赵成
2018/08/09
8320
InfoQ访谈:为什么说运维的未来必然是 AIOps?
【每日一思】2022年第3周 AIOps的一些思考
2016年,Gartner在ITOA的基础上提出了AIOps,这里的”AI“指基于算法的 IT 运维(Algorithmic IT Operations),即,平台利用大数据,现代的机器学习技术和其他高级分析技术,通过主动,个性化和动态的洞察力直接或间接地,持续地增强 IT 操作(监控,自动化和服务台)功能。随着AI技术的发展,Gartner在随后又将AIOps定义为智能运维,而在国内,目前大家所提到的AIOps应该是ITOA与AIOps的集合。以下是Gartner在AIOps报告中放出一张经典的AIOps图,我们可以摘出AIOps的几个关键词:
彭华盛
2022/03/07
6060
【每日一思】2022年第3周 AIOps的一些思考
分布式主动感知在智能运维中的实践|分享实录
早期的运维工作比较简单,一般是先由系统集成工程师及研发工程师研发完项目后交付出来,再由负责运维工作的人员从后台做一些操作,保证系统正常运行。
宜信技术学院
2019/07/10
1.6K0
分布式主动感知在智能运维中的实践|分享实录
运维数据与知识:从 “原始记录” 到 “智能燃料” 的蜕变
直达原文:【DeepSeek谈运维】AI驱动的运维资源体系:从数据资产到智能能力的全面升级
嘉为蓝鲸
2025/05/12
750
运维数据与知识:从 “原始记录” 到 “智能燃料” 的蜕变
蓝鲸研运体系在腾讯内的应用实践
蓝鲸是腾讯IEG十多年研运探索的经验与成果,积累了很多人的智慧与付出。由于腾讯IEG的业务特殊性,蓝鲸体系天生地展现出对异构业务的友好,避免了需要重复造轮子才能完成对多业务的支持。本次分享主要介绍蓝鲸研运体系在腾讯内的发展、应用及未来的演进之路。
嘉为蓝鲸
2022/11/24
1.3K0
蓝鲸研运体系在腾讯内的应用实践
企业应用运维自动化应该如何设计?
运维的起始点是拿到开发的代码包开始,然后进行资源环境准备、环境搭建、应用发布,以及一些列的运维支撑保障工作;而从运维团队内部来看,大致从技术栈层面分为几类:
嘉为蓝鲸
2020/01/02
1.2K0
企业应用运维自动化应该如何设计?
去工具化/脚本化理解,自动化运维落地最佳实践之业务/架构/模型/方法
声明:本文来自于我的这些年运维创业服务经验,基于EasyOps自动化运维平台的经验总结,与大家分享。
用户1593318
2020/06/16
3.3K0
去工具化/脚本化理解,自动化运维落地最佳实践之业务/架构/模型/方法
AIOps入门之路:Elastic Stack与AIOps
AIOps是Artificial Intelligence for IT Operations的简称,我们可以将之称之为智能化运维。
点火三周
2022/03/07
3.6K0
AIOps入门之路:Elastic Stack与AIOps
搭建DevOps实施详细方案
DevOps是一种文化理念、实践和工具的组合,旨在缩短系统开发生命周期,提高交付速度和质量。它强调开发(Dev)和运维(Ops)团队之间的协作与沟通,通过自动化流程实现持续集成、持续交付和持续部署。
紫风
2025/06/17
1680
搭建DevOps实施详细方案
2022VDC云与基础架构专场:以高效基础架构能力矩阵推进云原生时代技术革新
11月8日,2022vivo开发者大会以线上直播的形式召开,此次大会以“MORE,近你所想”为主题。在次日的云与基础架构分会场,vivo介绍了近年来其在云原生和容器技术层面的最新探索和实践。vivo互联网容器技术负责人潘良彪、互联网容器研发高级工程师束迎亚等6位专家分别在现场做了主题演讲。
人工智能日报
2022/11/09
3260
AIOps赋能微服务:打造高效稳定的运维体系
一直想讲讲我做稳定性相关的经验和总结,稳定性建设到底要怎么讲,其实范围还是比较广泛的,于是我想重点从两方面来讲,一部分从运维体系谈谈我的看法,一部分
小程故事多
2024/12/25
4460
基于Saltstack、Artifactory打造传统模式下持续部署平台
由于没有建立标准的持续部署流程,导致了版本管理混乱,制品管理混乱,上线持续时间长,上线测试覆盖不全面,业务流量上升后故障较多,排查复杂。运维、测试、开发人员每次版本迭代的时候,都要可能需要经历一次通宵的历练,并且这种在上线的第二天依然会出现很多线上故障。
JFrog杰蛙科技
2020/01/15
6430
基于Saltstack、Artifactory打造传统模式下持续部署平台
推荐阅读
相关推荐
AIOps落地的前提条件探索
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档