首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

3.4 事中故障处理(3)故障定位

故障定位指诊断故障直接原因或根因,故障定位有助于故障恢复动作更加有效。故障定位通常是整个故障过程中耗时最长的环节,定位的目标围绕在快速恢复的基础上,而非寻找问题根因,后者由问题管理负责。通常大部分可用性故障,要借助运维专家经验的假设判断或已知预案的执行得到解决,但仍有部分故障,尤其是性能、应用逻辑、数据故障需要多方协同与工具支持。故障定位的方法通常包括专家经验驱动的假设尝试、测试复现、预案启动、代码分析四种,这个过程涉及对日志、链路、监控、数据感知、知识管理五类工具。随着系统复杂性不断提升,依靠专家经验驱动的假设尝试准确率会下降,如何将数字化手段结合专家经验,融入到协同机制中,这考验故障定位场景的设计水平。

02

京东商城技术架构部 | 我为11.11保驾护航

京东快速发展的同时,应用规模、数据中心以及机器的规模都同步倍增,在面对如此大规模的机器,应运而生了京东数据中心操作系统(JDOS,JingdongDatacenter OS)。历经多年时间的技术沉淀与发展,JDOS不仅仅作为京东数据中心操作管理资源,更作为京东统一的PaaS平台致力于支撑业务系统快速交付、稳定运行,基础中间件托管提升基础平台敏捷交付。尤其是线上运行的阿基米德系列系统,将应用于实现京东商城数据中心资源智能调度,支撑在线业务系统与大数据计算混合部署融合计算,并节约采购成本。而每一次的11.11都是对JDOS系统的一次检验和挑战,经过无数次的紧张演练,问题排查,系统升级优化,服务应用快速交付;从容支撑大促高峰流量,保障了业务的高速发展。

03

史上最全互联网运维工作规划!十分钟找到职业方向!

互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够7×24小时为用户提供高质量的服务。 运维人员对公司互联网业务所依赖的基础设施、基础服务、线上业务进行稳定性加强,进行日常巡检发现服务可能存在的隐患,对整体架构进行优化以屏蔽常见的运行故障,多数据中接入提高业务的容灾能力,通过监控、日志分析等技术手段,及时发现和响应服务故障,减少服务中断的时间,使公司的互联网业务符合预期的可用性要求,持续稳定地为用户提供务。 在安全方面,运维人员需要关注业务运行所涉及的各个层面,确保用

011

突围电商大促场景,得物在高可用上的探索与实践 | 卓越技术团队访谈录

采访嘉宾 | 金思宇、陈贞宝、胡强忠 编辑 | 辛晓亮   大型电商系统并非一开始就具有完整设计的高可用特性,而是随着用户的不断增加与业务的快速增长逐步演进与完善的。当前高可用架构体系是互联网企业系统架构的基础要求,随着公司的业务发展,尤其是对于电商平台,每次发生稳定性故障带来的影响越来越大,提供稳定的服务,保证系统的高可用已经变成了整个技术团队需要面对的挑战。 基于此,我们深度采访了得物技术团队核心成员,探索他们在高可用架构上的实践、演进,深入了解大促备战是如何进行的,异地多活体系是如何建设的,全链路

02

应急预案评审常见问题

编制应急预案并通过外部评审是企业必做的工作之一。一般来说,应急预案的编制应按照成立应急预案编制机构、资料收集、风险分析与评估、应急资源调查、应急预案编制、桌面推演、应急预案评审、批准实施等流程开展。应急预案的内容应该符合编制导则形式与内容的要求,这是应急预案评审和备案的前提。 在应急预案评审中,经个人观察,有下列常见问题,供同行们参考。 1.格式内容不统一,特别是一些容易忽视的地方。比如批准页中的内容不一致,个人认为,同一家单位的应急预案,其格式应该是统一的,其通用内容应该是统一的。 2.单位/部门名称不一致,比如有的简写,有的没有简写;文本上下内容不一致。 3.应急通讯录没有及时更新,更多的体现在政府部门的通讯联系方式变化后没有更新,部分有缺漏。 4.错漏字,或者含有其他预案的内容,这可能是由复制粘贴或按照模板编写没有修改的缘故,但实质上是编写人员不认真。 5.应急预案编制依据没有列全,特别是一些专项应急预案中有针对性的规章制度规定;应急预案的适用范围描述不具体。 6.应急预案编制要求很多,有编制导则,有防汛、消防等专门编制要求,对于基层单位来说,还有地方政府的要求、集团公司、公司的编写要求等,往往会造成混乱,这也是评审过程中专家经常会提到的问题。比如,按照消防应急预案编制要求,什么内容应该写而没有写;地震灾害分级与地方政府的分级不一致,等等。 7.一些专项应急预案没有结合实际进一步细化,风险分析不全;应急机构及职责和应急处置措施针对性不强;专项应急预案与综合应急预案之间的关系联系不紧密,例如应急物资清单。 8.应急预案的启动条件设置不清晰,启动后与上级单位、地方政府的衔接操作性不强,启动过程中响应级别的提高或降低的条件设置不明确。 9.应急信息报送不清晰,例如没有写清楚谁来报送、报送到哪里、报送时间要求等;部分专项预案上报单位不全。 评审的一般结论: 1.应急预案的形式与内容基本符合编制导则要求。 2.及时更新相关内容,特别是通讯联系方式,注重时效性。 3.加强演练,熟悉预案,加强与政府部门和相关单位的协同联动,不断提高应急实战能力。 有精于此的专家朋友,望不吝赐教。

02
领券