目前,我国IT服务发展已经进入到相对稳定的增长阶段,有着极为可观的市场前景。据相关数据统计,2017年中国IT服务市场规模为6077.7亿元,同比增长16.2%,预计未来四年将保持13.8%年复合增长率,到2021年整体市场规模将突破万亿大关。
与此同时,越来越多的高科技企业加入到数字化转型大军中,而IT服务市场的竞争格局也发生着变化,优质IT服务企业开始进入大众视野。
然而,在移动化、大数据、云计算、人工智能等新技术的推动下,企业的 IT技术架构悄然变迁,从传统“IOE架构”走向“互联网架构”。互联网架构所涉及的网元数、技术栈、服务数等元素成倍剧增,使得运维压力越来越大。
企业一方面享受着数字技术带来的创新成果,一方面却又有意无意的忽略了IT自身的潜在风险,不能在IT出现问题的第一时间发现,并作出有效应对。
首先,从C/S架构到B/S架构,再到移动化的APP和小程序,加上云计算、物联网、边缘计算等技术的应用,企业IT架构越来越庞大,运维工作变得越来越复杂。
“一直以来,IT部门的职责局限于维护系统的稳定运行,鲜少与业务运行指标挂钩,当业务出现波动后再从海量日志、监控数据中排查原因,往往已经造成难以弥补的损失。”
其次,庞大的数据量也是运维工作面临的巨大挑战。很多大型企业的服务器数量就达到上万台,每时每刻产生海量的数据,这些数据里还藏着大量关键信息,比如某系统的日志数据不正常,可能造成未来数小时整个业务流程的缓慢,甚至中断。
第三,过去受限于技术和人力等方面原因,IT系统一旦出现故障,需要手工排查问题,效率非常差。
科技进步推动IT从标准化、自动化向数字化、智能化转变。如此高速发展、竞争激烈的经济环境中,企业必须重新审视IT与业务的关系,否则就会被行业领先者和互联网创新企业所淘汰。
与此同时,IT运维的角色正在发生根本性转变,从默默无闻的支撑者变成业务运行不可或缺的赋能者。而智能运维(AIOps)作为AI、大数据技术与IT运维融合的产物,也成为传统企业数字化转型的必然选择。
智能运维是理念和策略,数据是基础
2016年,Gartner首次提出智能运维(以下简称AIOps)概念。在Gartner的《Market Guide for AIOps Platforms》报告中对AIOps做出了定义:AIOps平台是结合大数据、人工智能(AI)或机器学习功能的软件系统,用以增强和部分取代广泛应用的现有IT运维流程和事务,包括可用性和性能监控、事件关联和分析,IT服务管理以及运维自动化。
总的来说,与传统IT运维相比,智能运维具有无可比拟的优势。过去受限于技术和人力等方面原因,IT系统一旦出现故障,便需要大量资源手工排查问题,效率非常差。
智能运维不但有效减少告警的误报率和错报率,通过交易链自动追踪和故障根因分析,帮助运维第一时间发现问题根源,并把故障的排查和修复时间缩短到数个小时。
举个例子,一家大型企业可能有数百套IT系统,过去,出现故障后,如果依靠人力逐一排查,大概需要一周的时间。而使用智能运维平台,不但有效减少告警的误报率和错报率,通过交易链自动追踪和故障根因分析,能够把故障的排查和修复时间缩短到数个小时。
智能运维并不是一个全新的理念,而是IT运营分析/运维管理(ITOA/ITOM)体系与大数据和人工智能技术结合的产物。
AIOps智能运维平台以ITOM/ITOA系统所采集的运维大数据为基础,利用人工智能和机器学习算法对运维数据进行深入分析,涵盖IT监控,应用性能管理、外网监控、日志分析,系统安全等方面。
前几年大家对AIOps争论非常大,都在讲自己对AIOps的定义与理解,以及接下来AIOps发展方向。当时对其争论的方向有这几个:
第一类,AIOps是自动化运维,就是我们要把Ops消灭掉,通过自动化运维方式,用机器去取代人。
第二类,利用智能化的手段,替代高重复性的工作,全程自动化、智能化操作。
第三类,是我们理解的AIOps,AIOps的核心在于企业解决的不是运维的问题,而是如何提高运维效率,解决如何支持业务的问题。
对于AIOps,我们的观点是:
第一,与其说AIOps是产品,不如说这是一种理念和策略。通过以数据为基础,场景为导向,算法为支撑的AIOps平台,为企业现有运维管理工具和管理体系赋予统一数据管控能力和智能化数据分析能力,全面提升运维管理效率。
第二,现阶段AIOps的目标不是NoOps,而是BetterOps,通过更高效的运维帮助企业快速洞察人力难以企及的故障和问题,准确预测风险,化被动运维为主动运维。
可以这么理解,企业IT运维服务商,要帮助企业客户把运维问题消灭在内部,让使用者还没有发现问题之前,运维系统已经把问题解决掉了,感受不到运维的存在,做到无感知的运维。就像我们在使用微信一样,我们不会感觉微信背后有一个运维团队存在,虽然它偶尔会出故障,但极少,他们的运维的工作做得非常多,才能实现这点。
第三,AIOps的基础是什么?我们认为是数据。“因为AIOps需要收集企业内部系统、外部系统、第三方的各种数据,汇集到一起,通过AI的方式进行分析和处理,帮助企业运维人员用正确的运维动作和管理方式,提升整体的运维效率。”
总的来说,把日常的IT管理工作移交给拥有机器学习和自动化运维能力的智能运维平台,大大降低企业管理的时间成本和人力、资金投入。
而运维管理人员也可以从筛查海量告警信息、执行重复性巡检任务、人工判断故障、手动解决问题的低效工作中释放出来,专注于构建更加高效、高扩展的IT系统,支持企业的数字化业务发展,这也就是业界所倡导的“IT从运维到运营”之路。
AIOps智能运维平台还能有效预测潜在的IT故障,并在无需人为干预的情况下提前解决掉这些问题,而应用系统故障率的降低,将有效提高云计算资源的使用效率。这得益于机器学习和深度学习算法在IT监控和应用性能管理系统中的持续积累,不断记录IT运维人员在不同场景下使用故障排除或修复基本问题的自动化工具的操作。
企业采用AIOps的能力不仅取决于IT监控系统的数据规模和自动化系统的可用性,还取决于人员和流程的一致性。
服务商可以在很短时间内把AIOps智能运维平台部署到企业,但是任何管理转型都不是安装一套系统那么简单,需要根据业务特点对人员和流程进行调整,而这往往需要更多的时间。
那么,一个完整的AIOps智能运维平台具备哪些要素呢?
首先,这个平台要具备完整的数据采集和数据处理能力,可以收集企业的多维度数据,并且聚合到一起,这是基础。
其次,在具有海量数据基础之上,平台要具备AI能力,这个能力不是随便一个算法就能解决的,是针对运维领域的算法能力。
第三,就是对客户的业务要有充分和深度的理解。我们知道,不同的行业,不同的公司,业务属性都不同,服务商需要依据客户的具体业务和应用场景,提供最佳实践的解决方案,而不是一个标准化的产品。
基于此,我们要了解不同行业的特性,不同企业客户的业务,对其业务要有深度的理解,进而针对他们的需求,提供个性化解决方案。
总的来说,一方面,要追求解决方案的标准化,要把很多需求做到模块化,方便客户调用。另一方面,对客户的业务要有深刻的理解,针对不同的客户,提供不同的模块产品组合,满足其业务需求。
- END -
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。