近两年,运维人需要面对不断涌现的新兴技术和架构转型的要求,例如企业上云、分布式、容器化、双中心双活等等。随着传统企业把更多的业务向线上化和数字化发展,IT运维也面临着业务模式改变随之而来的更多要求。做好运维,除了学好新技术,更需要从运维理念、运维方式和运维视角转变等方面去适应变化。以下是我个人的一些思考。
********本文是BLUES【公众号ID:bluemidou】向老王约稿,特授权blues独家首发,现转载如此,哈哈********
需要思考这个问题的原因,是因为AIOps不是到了某一个点就突然质变的,而是在持续演进过程中实现的。随着算法的日益成熟,整个运维体系也在改进的过程中逐渐完善,AIOps的道路才会慢慢清晰。因此,在达到目标之前,我们需要仔细规划怎么做才能更快实现AIOps。
摘要 优云软件解决方案中心总监童华权为我们带来优云作为国内在运维领域做得比较深刻的厂商,在运维管理方面的一些见解。 运维面临的挑战 数据中心进入“两化转变” 数据中心转向“两化转变”,技术架构层面随着
随着业务支撑要求的变化,和技术架构的升级,运维管理建设模式跟之前也有了很大区别,场景上更注重主动工作、防范风险,而体系上更注重赋能组织、平台化、一体化。
在这次的DevOpsdays大会上了,我的演讲主题是《DevOps,驱动应用从运维走向管理》,我为什么分享这样的主题?
我一直把运维团队的定位是在技术服务团队,个人也要朝着技术服务的方向去发展。单纯的服务定位对整个团队的发展不是非常有利,会逐渐沦为救火队员和保姆的角色,有点高级人员干着低级的活的感觉。
转载声明:本文转载自「FineOPS」,搜索「FineOPS」即可关注。 当下企业很多都热衷于建设运维自动化、智能化,通过技术革新代替繁杂的手工运维,提高生产效率的同时最大程度的减少人为失误。但是如何
随着企业信息化的不断发展,运维人员需要面对越来越复杂的业务和越来越多样化的用户需求,不断扩展的应用需要越来越合理的模式来保障运维服务能灵活便捷、安全稳定地持续。
任何的管理活动中都有流程,IT运维管理也是。而在企业中流程管理的工具很多,常见的有OA、BPM、专用工作流平台,以及一些管理系统中也会自带流程模块(如:HR系统、ITSM系统)。
之前接到一位客户咨询,说自己是300人的公司,4名运维人员。负责桌面支持,网络,视频等所有it工作。有什么办法能提高并量化it运维效率。为他解答的过程自己也整理除了一些思考,和大家一起聊聊。
https://cloud.tencent.com/developer/article/2303903 运维管理与运维自动化一文中我们从运维工作中提取了运维框架(红色代表缺失),由基础设施层、数据层、应用层、管理层、展示层组成,生成了我们最终的运维体系。
早在2011年的时候,收到一个任务,就是自研一套运维管理平台,当时基于硬件(CPU、内存、硬盘、网络)的开源运维平台业已成熟,但为什么要自研呢?
IT运维服务管理中的知识主要包括IT服务相关的管理制度、流程,软件开发文档、网络拓扑图等技术资料,针对不同问题和事件的解决方案,IT运维过程中产生的测试方案、技术方案、变更申请等。
ERP是一个庞大的信息管理系统,在ERP实施的各个阶段中,后期运维重要,它是整个ERP系统长期有效运行的有力保障。本文从ERP项目后期运维的地位、运维的不同阶段、运维的支持体系、运维过程中的知识体现以及运维所起的作用等方面对ERP项目后期运维进行全面研究。
一、缘起 软件工程有的时候与养孩子有点相似:虽然生育的过程是痛苦和困难的,但是养孩子的过程才是真正需要花费大部分精力的地方。在现实中,我们却发现人们往往将绝大多数的精力与资源花费在了讨论如何构建软件方面,而其后续的可维护性方面的工作却考虑的极少。我们在大学软件工程课程中也学过,从软件生命周期的角度看,软件开发阶段只占整个生命周期的20%~30%,软件运行维护阶段才是最长尾的,这个规律放在现在仍然适用。从以上的视角来看,在软件工程行业,至少应该有两类职业:第一类职业专注于设计和构建软件系统,另外一类职业就是专注于整个软件系统生命周期的管理。从其设计开始一直到部署、运行,历经不断改进,优化,最后退役为止。就是这样一类职业,它和其他的职业的专注点不同且必须具备非常广泛的技能,我们将它称之为IT Operations。 二、运维是什么 运维,英文原文是IT Operations翻译过来就是IT运维,根据中文,对“运维”这个词进行拆解就是“运行+维护”。这个拆解隐含了对运维工程师工作职责的最基本要求。那么到底什么是运维呢?在我的理解,运维即服务,好的服务体系是系统稳定运行的坚实基础和有力保障。我们的工作职责就是保障生产系统的安全、稳定、可靠的运行,确保服务7*24小时不间断。 三、运维的价值 运维的价值主要体现在如下几个方面:提高业务运营质量、用户满意度,保障系统安全、稳定、可靠的运行及服务的可用性,降低业务运营成本,在提高IT服务质量的同时为企业与客户创造更多的商业价值等。 四、谈谈我们的工作 (一)岗位要求 运维是一个融合多学科(网络、操作系统、数据库、中间件、开发、测试、安全、协议、算法、数据结构、架构、存储、强弱电等)的综合性技术工种。一名优秀的运维工程师,需要在多个技术领域中,精通某几项技能,才能够胜任该工作,同时还要对业内前沿技术发展趋势实时跟进、掌控。 (二)人员素质要求 良好的沟通表达能力、工作认真仔细,注意细节、能够扛得住较大压力、知识面广、有较强的责任心,工作态度端正,积极主动,执行力强、学习,创新能力强、极强的安全意识和对问题刨根问底的精神。 (三)岗位职责 以系统稳定性为目标,负责系统的可用性、性能、效率、服务请求、变更管理、监控、应急响应和容量管理等工作。 (四)工作内容 日常主要工作内容如下:服务级别管理、能力管理、业务连续性管理、事件管理、问题管理、变更管理、配置管理、发布管理、备份管理、容量管理、可用性管理、安全管理、知识管理、系统监控、例行巡检、性能优化、应急响应、问题处置、生产问题复盘、服务请求、IT架构规划设计、系统部署、双活建设、容灾建设、切换演练、系统软件升级及补丁修复等工作。 (五)运维服务体系建设 运维作为一个细分的IT专业领域,在运维服务体系建设方面是有技巧和章法的。一个好的运维服务体系的建立是需要一个懂运维的管理者花费很多心思和精力,经过反复的打磨,不断改进构建起来的,绝非凭空起高楼。一般业界会参考借鉴ITIL与业务连续性管理BCM,ISO 22301等体系标准来构建适合于企业自身的运维体系。 一般情况下一个好的运维服务体系建设应遵循如下原则: (1)以完善的运维服务制度、流程为基础; (2)以先进、成熟的运维管理工具为手段; (3)以高素质的运维服务团队为保障; (4)以科学合理的考核指标为导向。 具体落地措施如下: (1)制定运维服务标准与规范; (2)搭建运维服务台,全方位接受服务请求; (3)规范事件管理,建立完善的突然事件应对机制; (4)规范问题管理,建立故障分析的长效机制; (5)规范变更管理,建立谨慎的变更管理机制; (6)收集基础资料,建立完备的CMDB管理系统; (7)制定绩效考核办法,加强监督检查,严格考核运维人员。 (六)运行无间最佳实践之运行保障示例 (1)问题预防 对即将投产的系统进行评审,从系统的健壮性、可扩展性、可维护性及部署规范等方面进行评审是否满足上线的标准和要求。 对每天的变更与应用发布进行集中评审,严格按照变更与发布的标准与变更红线进行审核是否满足投产条件。 按照运维计划,定期组织实战切换演练,模拟生产故障,验证系统的健壮性以及提高运维人员的应急处置能力。 (2)运行监控 监控是运维人员的眼睛,能够帮助运维人员快速发现定位问题,减少业务中断时间,提高故障处理效率。目前业内均已实现全维度监控,也就是说运维人员要从各个维度监控系统的健康状况,比如IDC机房、网络、存储、操作系统、数据库、中间件、应用、系统和业务层面。运行监控人员会7*24小时进行值守,一旦系统抛出告警,值守人员确保5分钟内电话通知到一线运维人员及时介入处置。 (3)故障响应 一线运维人员在接到告警后,会进行初步的判断,对业务的影响,是否需要进行升级,是否需要协同其他条线或者二线专家的介入。 (4)故障
自动化运维是一个人让人兴奋且易失控的话题!兴奋是因为我想作一次尝试,把它的全貌和细节说清楚;易失控是因为涉及点太多,一则怕遗漏,二则怕顾此失彼。带着这份复杂的心情,我们来一次自动化运维的解析之旅吧。
从运维体系看,CMDB是运维数字世界的数字地图。运维组织规模小时,运维流程与协同可以通过线下沟通解决,随着内外部环境复杂度越来越高,线下协同的方式无法适应当前面临的挑战。运维数字世界的构建就是为了应对人员数量、系统数量、主机数量、服务数量、数据量越来越大,架构链路与沟通关系越来越复杂的挑战。从运维平台架构看,CMDB承担了描述运维对象的职能,CMDB是IT资源(设备、组件、系统)及其关系的数学抽象,是IT资源的“高德地图”,是IT运维及IT运营的数字基石,是运维工作展开的底层支撑。分析CMDB,首先从行业CMDB发展看看CMDB,大体可以梳理4段过程:
在运维适应性系统中,随着运维能力需求不断提升,运维组织面临的机器、人、协同关系等不确性特征越来越明显。为了更好的传递公司数字化转型价值创造,确保公司价值产出过程的有序运作,需要建立以价值驱动的运维流程管理,以持续提升运维组织整体运作效率和价值实现,落实运维的能力建设。良好的流程可以帮助运维建立复杂环境的适应性能力,即围绕“需求、改变、风险、适应”四个要素闭环螺旋上升(闭环模型参见《运维挑战:如何构建复杂环境下的适应性系统》)。
今天,领先的数字原生企业不断用数字化手段颠覆传统行业,传统行业内领先的企业也在积极拥抱数字化,国家也适时的将“数据”列为生产要素参与分配,推动了以数据为关键要素的数字经济进入了新时代。站在企业内运营后台的运维部门,运维属于数据密集型工作,团队的价值创造都是在运维数字化工作空间中运作。
2016/2017年:刚开始做监控的时候,研究了几乎市面上所有监控产品,和相关的技术文章、视频。这个时候,主要是接触了大数据相关的技术,包括:Kafka、Spark、HiTSDB、ELK等。
【名词解释】 腾讯数据中心经理:负责腾讯IDC整体运营管理和属地化管理工作,下文简称“数经”。 腾讯IDC运维工程师:负责腾讯IDC日常IT运维(服务器、网络)、IT资产管理或者IDC基础设施运维,主要分为服务器运维工程师、网络运维工程师、资产管理员、IDC基础设施运维工程师。下文简称“运维工程师”。 【前言】 2015年06月05日,首届腾讯IDC运维工程师培训与认证在深圳总部腾讯大厦圆满落幕,首批参训学员共计20人,其中18位学员通过了“腾讯IDC运维工程师(初级)”认证。此次活动获得了IDC平台部领导
进入2018年以来,IT运维领域最热门的话题可能就是运维自动化,并且这种热门的趋势按照目前的发展态势,应该会继续扩展到2019年、2020年……
金融行业在不断寻求数字化转型的同时,金融科技带来的IT建设规模越来越大,IT运维的复杂度越来越高;来自监管的IT运维方面,对可用性、连续性管理提出了更高的要求;两地三中心的部署架构,管理的硬件设备数以千计,TB级的运维数据分散在各个复杂的系统中。另外,大量新技术的引入,迫使银行业的IT运维模型向稳态和敏态结合的双态模式发展,简化的流程、快速的迭代、复杂的技术都对传统的运维和管理提出挑战,给传统IT运维带来了巨大压力,主要表现在以下几个方面:
谈起运维工作,估计很多人会下意识的认为就是修电脑的、网管(上不去网,第一个被召唤的那种)。其实不能说这是错误的理解,IT运维人员的工作小到修电脑、理网线,大到部署整个数据中心。
云最难的,就是如何运维了,如何监控指标、告警、报表等信息并提前预判异常?出了故障能第一时间找到根因、路径吗?过程可视化吗?故此,小编找到我们 TCE 的运维产品经理,大家群策群力,倾情打造运维产品力专题,从价值视角,分享运维对云的贡献。
不同企业会有不同的情况,但通常都会遇到运维工作分散、信息不透明、安全性低、灵活性差、技术不足、重复劳动、工作繁琐缺乏工具支持、中心控制失效等问题。
运维是事件驱动,还是自驱动可能是我们在运维工作中不太关注的问题。事件驱动让运维止步于故障,而自驱动让运维不止于建设。持续性的运维建设就需要一套自动化的运维体系,那么我们应该从何入手?
当遇到运维管理对象的急速增长,业务需求频繁变更等传统运维场景问题时,依靠手工运维已经远远满足不了需求,因此我们需要搭建一套自动化运维平台,来实现运维质量和效率的提升。那么一个成熟的自动化运维平台是什么样的?企业运维平台又该如何建设呢?
梁定安, 腾讯织云负责人,目前就职于腾讯社交网络运营部,开放运维联盟委员,腾讯云布道师,复旦大学客座讲师。 前言 运维自动化是我们所渴望获得的,但是我们在一味强调自动化能力时,却忽略了影响自动化落
“金融拥抱科技,创新驱动发展”,2018年金融系统信息化创新论坛5月10日-12日在广州顺利举行。
前言:在上一篇《运维数据生态:高阶落地的一些场景》中,从产品开发角度,探讨运维数据场景的高阶落地途径和方法。在数据的输出和变现的过程中,场景化作为最终落地的载体,而运维数据的输出和变现能力最终还是依靠前期的数据建设和质量管理,本章节中,我们着重对运维领域的数据建设和管理进行展开,来描述运维数据的管理方式。
应用运维:负责支持线上业务,各自会负责对应的业务线,主要职能是保证线上业务稳定性和同开发共同支撑对应业务,以及线上服务管理和持续优化。
《苏州市“十四五”数字政府建设发展规划》 指出数字政府将以新一代信息技术为支撑,以数字化转型为驱动,以业务流程再造为核心,以数据高质量赋能为主线,以一体化服务感知为导向,重塑政务信息化业务架构、技术架构、组织架构和网络架构,构建政民互动新机制、政府治理新模式、政府作业新形态。
今天准备谈下AIOps的内容,在我前面已经写过多篇文章谈DevOps研发运维一体化方面的内容,原来也一直看到AIOps的概念,潜意识里面理解是DevOps里面的一个子内容分解。而实际我们看到AIOps和DevOps没有必然的联系。
IT运维升级建设到底应该先进行标准化建设,还是应该先进行自动化建设,这个争议由来已久。
云计算作为改变世界的力量,已经开始在各种应用实现中被不断印证,而现在还只是云计算生命周期的启航,这场变革的演进一定会超乎大多数人的想象。早些年,当我读到尼古拉斯·卡尔《IT不再重要》(The Big Switch: Rewiring the World, from Edison to Google)这类文章的时候,对于云计算所具备水、电般属性的勾勒,既为之兴奋,又苦恼无法为具化这些属性找到实践支撑。而最近三年来,云计算发展风生水起,以我这三年切身参与阿里云计算产品实现和落地的过程为例,恰好是云计算从“虚”到
为加快数字经济建设,推动金融高质量发展,金融行业正大力推进数字化转型。IT运维管理作为企业运营中的环节,在数字化浪潮下,应主动出击,进行数字化能力升级,发挥自己独特的价值。
很高兴今天有机会在这里与大家交流,也要感谢普元提供的交流平台和普元CTO焦总的邀请。我今天与大家分享的主题是关于企业级应用的可靠运维实践的这个话题。 本次交流的内容主要包括我对运维工作的认识、运维与架
运维在当代企业的IT管理中处于非常重要的位置,下至机房环境、服务器和网络等硬件,上至业务应用,都需要运维参与管理维护。运维人员通过正确的流程、工具和团队组织,确保对应的IT资源始终处于可用状态,或者短暂宕机后能够快速修复故障,又或者新的IT资源和应用能够快速安全上线,满足企业的业务和发展的需求。
一、现状:银行运维工具已实现技术条线全覆盖,但基于运维管理的全流程自动化、智能化尚停留在研讨阶段
马哥linux运维 | 最专业的linux培训机构 ---- 在云计算时代,开发和运维的结合变得越来越重要。在DIFF论坛第一期,前新浪SAE运维主管,郑志勇,分享了《一个开发眼中的运维》根据自己从开发人员转型运维之后的心得,谈如何把在开发上的运用抽象思维方式运用到运维领域。 1. 运维不是什么? 运维不是打杂的,运维不是客服,运维也不是服务开发的,但要做好合作。 2. 运维是什么? 运维服务于整个产品,保证架构合理,系统稳定。运维只对业务稳定负责,所有的工作都是奔着这个去的。 3. 你如何写程序,写
抛开我最近创业对这一问题的必要性思考,回归到一个企业内运维团队本身,个人觉得也需要思考这个命题。一个完善的运维平台才能做到对业务的运营有效支撑。个人把产品的水平闭环思考分解成如下几个问题,从这些角度下去,发现很容易找到该问题本质。
当前互联网和移动互联网发展迅猛,从事各个行业的企业为了应对日趋激烈的市场竞争,纷纷进行了数字化转型,利用移动互联网技术、云计算及大数据等新兴信息技术发展企业的数字服务,从而吸引客户,帮助销售和推广产品,提升客户体验。 然而,随之而来的是规模不断扩大的IT系统、日益复杂的系统架构,以及海量的IT运维数据,同时公司业务对IT系统的连续性要求也进一步提高。 面对这些新形势下的挑战,IT 运维管理(ITOM)需要从原有的人工加被动响应,转变为更高效、更智能化的运维体系,为新形势下的IT系统保驾护航。 当前传统
当企业遇到运维管理对象的急速增长,业务需求频繁变更等传统运维场景问题时,依靠手工运维已经远远满足不了需求,因此我们需要搭建一套自动化运维平台,来实现运维质量和效率的提升。
作为我国军用通信、导航及信息化领域最大的整机和系统供应商,行业内唯一的国家规划布局内重点软件企业,海格通信高度重视自主创新,拥有博士、硕士数千名,各类专业技术人员占集团员工总人数的75%,科研成果多次获得国家科技进步奖、军队科技进步奖、国家重点产品等荣誉。
港华集团为香港中华煤气在内地投资及营运管理的业务组合,自1994年进入内地以来持续深耕燃气市场,业务覆盖天然气上、中、下游,目前在24个省、自治区及直辖市经营逾300个燃气项目,服务客户逾4000万户。
涉及关键词:一体化运维、平台化运维、数智化运维、运维PaaS、运维架构治理、蓝鲸等。
上一篇整理了运维组织的“2.1 组织专业化”,在细化横向的专业化分工之前,本章先看看“运维底线保障能力”(由于本人主要工作经验在应用运维与自动化,相关内容以应用运维为主),主要的部份内容是基于公众号另一篇《回归一线应用运维的底线——先做好最基本的事》之上做扩展。下一篇计划是“2.3 可用性保障能力”
领取专属 10元无门槛券
手把手带您无忧上云