当遇到运维管理对象的急速增长,业务需求频繁变更等传统运维场景问题时,依靠手工运维已经远远满足不了需求,因此我们需要搭建一套自动化运维平台,来实现运维质量和效率的提升。那么一个成熟的自动化运维平台是什么样的?企业运维平台又该如何建设呢?
当企业遇到运维管理对象的急速增长,业务需求频繁变更等传统运维场景问题时,依靠手工运维已经远远满足不了需求,因此我们需要搭建一套自动化运维平台,来实现运维质量和效率的提升。
你也许可以听听腾讯蓝鲸对于两个问题的解答,或许能够帮你和你的团队拨云见日、一扫愁云,看清未来的方向和出路。
最近小嘉在逛论坛时看到一位朋友提出了这样的一个问题,这与之前沟通的一位客户疑惑一致,为他解答的过程自己也整理除了一些思考,故和大家一起聊聊。
云计算作为改变世界的力量,已经开始在各种应用实现中被不断印证,而现在还只是云计算生命周期的启航,这场变革的演进一定会超乎大多数人的想象。早些年,当我读到尼古拉斯·卡尔《IT不再重要》(The Big Switch: Rewiring the World, from Edison to Google)这类文章的时候,对于云计算所具备水、电般属性的勾勒,既为之兴奋,又苦恼无法为具化这些属性找到实践支撑。而最近三年来,云计算发展风生水起,以我这三年切身参与阿里云计算产品实现和落地的过程为例,恰好是云计算从“虚”到
运维是一个被压抑了太久的岗位,在行业的一些交流中,很多公司的运维说,他们虽然掌控着运维环境,却逐渐被排挤出了业务运营的关键流程,对未来感到很迷茫。
一直在建运维平台,但确实没有仔细想过这个问题。我对运维平台有特殊情怀,7年前从腾讯离开开始,就有想法做一套运维平台,甚至成立运维工具平台公司。现在想来太幼稚,身边一些创业做运维平台的朋友,也在侧面验证我的想法。
对于企业而言,敏捷意味着对用户需求和市场变化有着快速响应能力,能够针对市场最新变化做出快速反应。因此,近年来云原生、容器、微服务等技术迅速崛起,成为企业数字化转型中关键的技术趋势。
上一篇《腾讯蓝鲸是怎样在腾讯诞生的?》一文中,我们谈到了腾讯蓝鲸的转型背景和设计思路。其实在腾讯游戏的内部,有多个应用运维中心,十几个应用运维组,他们各自支持着不同的业务,各自处于不同的发展阶段和能力水平。
今天准备谈下AIOps的内容,在我前面已经写过多篇文章谈DevOps研发运维一体化方面的内容,原来也一直看到AIOps的概念,潜意识里面理解是DevOps里面的一个子内容分解。而实际我们看到AIOps和DevOps没有必然的联系。
近一年来,嘉维蓝鲸自动化运维解决方案成功在数十个客户处成功落地,同时也和上百家客户沟通了自动化运维的需求,有大量的用户会问我三个相同的问题:
前两篇文章,我们谈了腾讯蓝鲸的转型背景、设计思路、在腾讯内部应用推动三大运维阶段。而蓝鲸团队也秉持着开放共赢的态度,逐渐将蓝鲸智云体系开放出来到传统企业,构建生态,武装运维,加速企业自动化运维转型。
不同企业会有不同的情况,但通常都会遇到运维工作分散、信息不透明、安全性低、灵活性差、技术不足、重复劳动、工作繁琐缺乏工具支持、中心控制失效等问题。
运维组织中什么资产最为宝贵?网络设备、硬件设备、平台、软件、应用系统……不同的人有不同的理解,从我个人理解,最宝贵的是运维组织基于组织特点、能力禀赋,多年沉淀下来的运维工作模式,毕竟硬件可以过保更换、软件与系统会上线下线。遗憾的是,很多运维组织的工作模式仍主要由文档上的流程,每个个体头脑中的经验组成,这种方式存在大量不确定因素。事实上,有不少生产故障也是由于某个或多个未按规定的工作节点的失效引发。运维场景的重要思想是基于组织的经验,将组织的人、流程、平台的能力在线连接,形成全线上化、数字化的工作片断,所有片断便是运维数字世界砖块。
蓝鲸平台作为当下大型企业常用的研运一体化平台,已经在很多企业内落地实施,在银行业也得到了广泛的推广,但实施的规模,建设内容,推广方式以及应用效果却各有不同。本文以两个典型银行为例,对比分析蓝鲸建设方式区别和原因,同时基于平台特性,对蓝鲸在银行的应用方式给出相关的建议。
现在大家都在讲智能化运维,自动化运维已经逐渐少有提及。这是一个理念和技术演进的正常过程,自动化运维已经从一种思潮和探索正在转变为落地和使用。越来越多企业已经开始落地自动化运维,在真正把步子迈出去的时候,发现自动化运维原来并不是一件复杂的工程,很多企业其实早就开始建设了。
打算坚持每周把上班过程中遇到的一件事思考一下,并用图画出来,看看一年下来能有些什么变化。
其实这个时候谈运维危机有点像在当下讨论股市危机一样,因此写这篇文章时,内心很纠结,特别是这个互联网运维才产生没多少年(10年)的行业,怎么你就来谈危机了?没办法,都因技术发展太快。
随着IT技术的发展,运维需求越来越多样,运维系统的架构也越来越复杂,各公司分别独立建设运维系统的技术和成本要求越来越高,因此越来越多的大型集团企业开始转变思路,考虑建设集团统一的一体化运维系统。
“金融拥抱科技,创新驱动发展”,2018年金融系统信息化创新论坛5月10日-12日在广州顺利举行。
在我入职上家公司的运维部之前,我所以为的运维工程师只是修修电脑,拉拉网线,布布机器。
现在全国政务行业都在推行数字政府、数字中国的落地。大部分省市都在进行IaaS资源、PaaS资源、DaaS资源以及SaaS资源的整合;构建基于IPDS架构的云平台数据中心,通过IPDS云平台数据中心,为用户提供各类资源服务。
企业数字化转型已成为应对业务和市场不确定性以及新机遇的必备条件。在企业数字化转型的过程中,一个稳定且持续生长的运营平台显得至关重要。
涉及关键词:一体化运维、平台化运维、数智化运维、运维PaaS、运维架构治理、蓝鲸等。
我一直把运维团队的定位是在技术服务团队,个人也要朝着技术服务的方向去发展。单纯的服务定位对整个团队的发展不是非常有利,会逐渐沦为救火队员和保姆的角色,有点高级人员干着低级的活的感觉。
人们形容运维人的工作日常:不是在解决问题就是在解决问题的路上。以至于运维人自己也感叹干的工作是操着卖白fen的心、赚着卖白菜的钱……
3月底有幸参加了全球云计算开源大会,并作了一个关于《运维一体之平台一体化》的分享,现将PPT的内容整理成文。
2018年嘉为给众多客户实施了自动化运维项目,使蓝鲸平台这个诞生于互联网公司的产物在各传统行业客户中落地。蓝鲸平台的对运维转型的促进影响作用无疑是巨大的,但是从一线运维工程师的角度来说,蓝鲸平台究竟在哪些方面帮到了他们呢?本文就将从嘉为驻场一线的运维工程师视角,看看他眼中的蓝鲸。
在很早以前,记得给YY的产品经理讲什么是运维,当时给运维提炼出一个成熟度模型,囿于当时的认识,用技术模型来做了总结,简单总结如下:
前段时间有篇文章朋友圈疯传,【中台搞了2年,项目叫停,CIO被裁!本以为中台是道送分题,没想到是送命题!】。从结果来说,这个项目肯定是失败的,文章中透露出中台是“最短的笑话”和”玄学”之类的表达。很多时候把中台看成一个技术课题,但做着做着发现不对,它又是一个组织课题和业务课题。在前不久的【数字化奇葩说】第一期关于ERP和中台的讨论,我也作为嘉宾参与并发表了个人观点【见文末】。其实想表达的是,能和中台扯上关系的太多了,回到运维领域,是否有一个运维中台存在?它是否是个玄幻话题?抑或是为了概念而概念?如果有,我们该如何抽丝剥茧的理解它呢?
内容来源:2018 年 03 月 31 日,腾讯蓝鲸运营负责人杨文兵在“腾讯蓝鲸自动化运维沙龙(北京站)”行进行的《从0到1构建支撑企业自动化运维体系》演讲分享。IT 大咖说(微信id:itdakashuo)作为独家视频合作方,经主办方和讲者审阅授权发布。
12月15日,由腾讯云主办的首届“腾讯云+社区开发者大会”在北京举行。本届大会以“新趋势•新技术•新应用”为主题,汇聚了超40位技术专家,共同探索人工智能、大数据、物联网、小程序、运维开发等热门技术的最新发展成果,吸引超过1000名开发者的参与。以下是物联网的场景化技术应用分论坛的演讲内容,稍作整理,分享给大家。
PaaS平台型IT运维和运维模式是指:将通用的运维能力与具体的运维场景解耦合,将能够复用的,具备独立功能的通用能力纳入PaaS体系,并在PaaS体系基础之上针对多种多样的运维场景构建对应的运维工具APP。
在海量运营方法论的指导下,运维团队构建了体系化的运维能力,为众多产品保驾护航。
提起腾讯的运维团队,第一个让人联想起来的名词当属“海量”,早在2004年腾讯前 CTO 张志东先生就提出了一套技术运营的方法论“海量运营之道”。
企业数字化转型,科技先行。国际知名咨询机构如麦肯锡、埃森哲、IDC、IBM等,都在解读数字化定义时提及智能化运营。但要实现智能化,我们还有很长的路要走。
一、现状:银行运维工具已实现技术条线全覆盖,但基于运维管理的全流程自动化、智能化尚停留在研讨阶段
虽然基于Google SRE布道推动了运维行业对于运维人员能力的深度思考,也有一些行业正在推动原来运维团队向SRE团队转型,在人员招聘、组织团队等方面进行改变。对于金融行业,但由于运维组织的人员流动性较低,企业已有的大部分运维人员都缺乏研发能力,无法达到Google SRE模式需要的研发技术能力要求,所以金融行业的运维研发更适合由一个独立的团队负责。这个团队当前关键价值是赋能运维职能团队,利用先进的理念与工具结合引领运维组织转型(当然,不排除后续技术架构的演进会颠覆当前的运维模式)。
IT运维是企业信息化建设中不可或缺的一环,其作用在于确保系统稳定性、提高效率和降低成本,对企业的业务生产和服务质量有着至关重要的影响。自十四五规划以来,随着企业数字化转型的加速推进,以及信创转型的大规模铺开,企业IT架构复杂度日益上升,直接引发了对自身运维体系的更高要求。但与此同时,在政策、需求及供给端的多重因素驱动下,IT运维产业也迎来了前所未有的重大发展机遇,具体如下:
IT运维指的是企业IT 部门采用相关的方法、手段、技术、制度、流程和文档等,并借助各类运维工具,对IT软硬件运行环境、业务系统、运维流程、运维人员等进行综合管理。
云最难的,就是如何运维了,如何监控指标、告警、报表等信息并提前预判异常?出了故障能第一时间找到根因、路径吗?过程可视化吗?故此,小编找到我们 TCE 的运维产品经理,大家群策群力,倾情打造运维产品力专题,从价值视角,分享运维对云的贡献。
在了解两者的区别前,我们得先明确对二者的定义,总的来说运维工作的目的都是为了保障企业业务连续性,核心在于提供高效、高质量、安全的IT运维服务。
抛开我最近创业对这一问题的必要性思考,回归到一个企业内运维团队本身,个人觉得也需要思考这个命题。一个完善的运维平台才能做到对业务的运营有效支撑。个人把产品的水平闭环思考分解成如下几个问题,从这些角度下去,发现很容易找到该问题本质。
这周末写了《实现敏捷的运维场景能力(5.1.3)》与《chatOps快速实现场景要素的连接(5.1.4)》,大致思路如下:
在之前的文章中,谈到过“运维的本质——可视化”,在可视化的篇幅中,着重介绍自动化的可视化和数据的可视化;在后续的篇章中又介绍了“互联网运维的价值体系”,里面分解了几个维度:质量、成本、效率、安全等。以上都是为了清楚地梳理运维的内容边界,基于这个边界,我们再考虑如何进行平台支撑。可以说前两篇文章都是为今天这篇文章作为铺垫,用理念先行,然后再考虑平台落地,最后再细化其中每个内容。我更习惯用如下的方式来整体表达运维的工作方法和思路:
在上一期《运维专题第2期:警戒哨兵》中,我们介绍的是运维平台中的监控系统——云哨,今天给大家带来的产品是巡检平台,在运维过程中能够跟监控系统一起为客户带来稳定的保障。
进入2018年以来,IT运维领域最热门的话题可能就是运维自动化,并且这种热门的趋势按照目前的发展态势,应该会继续扩展到2019年、2020年……
针对明确的运维诉求,开发相应的运维服务以供运维、业务用户使用,本无可厚非。但如果仅满足于此,很容易出现下面的情况:
随着数字化转型的深入,基于中台和PaaS架构的一体化运维建设也在各行各业快速展开,但是如何将运维平台本身的能力与企业已有的工具能力进行中台化整合、工具场景如何联动,是个复杂而庞大的工程。
********本文是BLUES【公众号ID:bluemidou】向老王约稿,特授权blues独家首发,现转载如此,哈哈********
领取专属 10元无门槛券
手把手带您无忧上云