作者 | Rafal Gancarz
翻译审校 | InfoQ 编辑部
根据 Cockroach Labs 发布的《2025 年弹性状况报告》,服务中断在大多数组织中屡见不鲜。55% 的公司表示每周都会遇到服务中断,14% 的公司称每天都有此类情况发生。令人震惊的是,参与调查的公司 100% 都因服务中断遭受过收入损失,部分公司(8%)报告在过去 12 个月里损失达 100 万美元及以上。Cockroach Labs 在对 1000 名高级管理人员就其 IT 系统的弹性以及所在组织面临的挑战展开调查后,于 2024 年 10 月发布了这份题为 《2025 年弹性状况:应对服务中断、停机时间和组织准备情况》的报告(需完成表格填写才能下载)。该报告强调,几乎所有技术领导者都对服务中断及其影响深感担忧,但他们所在的组织往往在解决运营短板方面做得不够。调查受访者指出,网络和软件故障是导致服务中断的主要原因,此外还包括云平台和第三方服务的可靠性问题以及网络攻击。
图注:此处为 “服务中断的常见原因” 图表,来源:《2025 年弹性状况报告》
报告作者总结了参与者提到的挑战:
近期 CrowdStrike 全球服务中断事件引发的连锁反应促使许多组织采取行动 —— 本次调查中 94% 的技术高管表示,这一事件促使他们的公司重新评估运营弹性。与此同时,接受调查的全球企业的领导者们指出,对变革的顽固抵触、内部优先事项不一致、系统陈旧过时以及预算僵局,使得许多企业无法实施有意义的(有时甚至是迫切需要的)运营弹性措施。
尽管运营短板会导致服务中断,但各组织在提升弹性方面仍面临诸多阻碍。优先级安排和预算限制被列为主要难题,其次是系统复杂性、培训不足和人员配备问题。
图注:此处为 “提升弹性的主要挑战” 图表,来源:《2025 年弹性状况报告》
在 2024 年 DORA 发布的 《加速 DevOps 状态报告》 中,作者探讨了软件部署引发的问题,并围绕软件交付稳定性分析了关键交付性能指标。在今年的报告中,团队引入了一项新指标,以探究变更失败率(CFR)为何在其他 DORA 指标中表现突出。这项名为返工率的新指标,用于追踪为解决面向用户的应用程序问题而进行的计划外部署次数,它与变更失败率一起构成了软件交付稳定性因素。
图注:此处为 “交付性能水平” 图表,来源:2024 年 DORA DevOps 状态报告
一如既往,《DevOps 状态报告》探讨了软件交付吞吐量与平台稳定性之间的关系,并得出结论:尽管发布频率与较低的变更失败率之间存在很强的相关性,但由于组织和技术方面的挑战,企业并不能保证通过更频繁的发布来实现更高的稳定性。该报告强调,需要关注软件交付性能的提升,而不应总是着眼于绝对性能水平。
原文链接:
https://www.infoq.com/news/2025/02/report-resilience-devops-dora/