腾讯新闻《潜望》 纪振宇 7月20日发自硅谷
7月19日,不管是跨国企业还是个人用户,惊诧地发现自己的Windows电脑或移动设备,在毫无预先征兆的情况下出现了“死亡蓝屏“,对于熟悉使用Windows系统的人都知道,“蓝屏”意味着电脑系统碰到了较为严重的技术性故障,之前未保存的工作进度或许无法恢复。
不久之后人们发现,这并不是一起局部的、偶发性的“蓝屏事件“,而是影响到全球底层IT系统的大规模事故,机场无法正常更新航班信息、航空公司无法出具登机牌、酒店无法登记入住、911无法接警、电视台直播中断、银行存取款业务暂停。
很快事件发生的原因水落石出,一家名为CrowdStrike的网络安全公司在Windows系统上的一次小小的升级,导致了整个系统的崩溃。该公司首席执行官在第一时间对外澄清,事故本身并不是网络安全事件,而是软件的升级故障。他表示,已经发布了故障解决方案,但由于该方案需要许多手动的操作,因而影响可能还将持续一段时间。
这一全球范围“蓝屏“事件,已经被许多媒体定性为史上最大规模的IT技术故障事故,由于影响到的范围极为广泛,由此带来的直接和间接经济损失巨大,造成的负面影响和冲击,可能远超一次大规模黑客攻击。
作为“罪魁祸首“的CrowdStrike公司已经受到了”惩罚“,该公司股价当天下跌超过11%。但这家公司面临的麻烦可能还远未终结,对于事故的责任认定目前还没有明确的结论,CrowdStrike未来或将遭遇大规模的索赔。
从更大的意义上来看,此次事件也再一次警醒:我们所习以为常的现代便利生活,过于依赖单一的系统,一旦该系统出现故障,将会在瞬间导致经济生活陷入停滞甚至濒临崩溃,如何避免这样的突发性事件再度发生?可能有更多底层性的话题值得探讨。
软件更新导致全球大范围Windows设备陷入“死亡蓝屏”
本周五,微软Windows“蓝屏”事件席卷全球。许多人发现自己的Windows电脑突然进入“死亡蓝屏”,无法正常工作,甚至重启都不能解决问题。
这一问题不仅仅局限于个人用户,实际上,许多用Window系统的企业用户未能幸免,甚至影响到更大规模的服务器层面,航空公司、酒店、银行等服务业的正常运转受到影响,航空公司无法更新行程信息,导致航班延误、旅客的登机牌无法正常出具、酒店无法完成客人的入住及离店手续、银行也无法进行正常的业务,甚至连英国天空电视台的直播也被迫中断了数小时之久。在美国的某些地区,911报警系统甚至无法正常工作。
这一轮影响广泛的“蓝屏”事件,起因并非是微软的Windows系统本身出了问题,而是第三方网络安全公司CrowdStrike公司的一项更新所导致。微软方面发布的声明称,“我们可以确认影响Windows设备的是CrowdStrike的Falcon客户端,这可能导致系统”卡在重启阶段“,微软方面称,CrowdStrike方面已经撤回了受影响的更新。
CrowdStrike方面随后也给出了回应,该公司首席执行官George Kurtz称,公司正在与受到影响的客户共同解决。Kurtz表示,此次大规模Windows系统宕机,并不是一项安全事件或者网络攻击,而是一项独立事件,并且解决方案已经发布。
尽管根据CrowdStrike方面称解决方案已经发布,但从用户角度来看,由于该公司公布的解决方案是繁琐的手动过程,因此对于一些大规模的系统和服务器来说,完全恢复正常运行,可能还需要花费很长时间。
对经济社会活动的影响冲击巨大
全球性“宕机“事件发生后,作为”罪魁祸首“的安全公司CrowdStrike公司股价立即出现大幅下跌,盘前便出现14%以上的跳水,19日全天跌幅超过11%。毫无疑问,CrowdStrike造成这一全球性安全事件令投资者对其未来业绩信心产生了极大的动摇。
然而这桩突发事件所造成的影响和冲击,远远不至于这一家公司。理论上,任何正常业务由于“宕机“事件受到影响的公司、行业以及这些公司和行业所服务的客户都直接受到影响。
首先影响最为直观和显著的是民航业,由于“宕机“事件,航空公司的系统无法正常运行,许多机场出现大批旅客滞留现象。根据航班监测网站Flightaware的数据显示,在美国,19日当天就有超过2000架次航班被取消,另外有5373架航班被延误。在全球范围内,截止到美国时间19日晚间,总共有超过2.9万航班延误。
除了民航系统,其他交通、物流运输等形式也受到影响,例如美国首都华盛顿特区的地铁系统在19日当天关闭了数个小时,美国最大的快递服务UPS和联邦快递也出现服务延迟的情况。
此外、酒店住宿、旅游、金融、医疗服务,甚至美国的部分地区,包括阿拉斯加、亚利桑那、印第安纳、俄亥俄的911服务也遭遇中断。
尽管目前无法准确估量对经济的影响规模究竟有多大,但毫无疑问,上述所有被影响的公司、行业以及相应的客户等,都将对整个经济产生极大的负面影响。现代社会平日里习以为常的正常运转,只是因为一个小小的软件升级Bug,就立即陷入了全面瘫痪,这不得不说是一件非常可怕的事。
目前对于事件的责任认定还没有明确的结论,CrowdStrike是否应该承担由此造成的损失?如果全部由CrowdStrike承担,或许这家公司将无力负担巨额的赔偿,过程中是否会有保险公司的介入,目前这些信息还未可知,但事件本身将会引发更多的思考和讨论,正如《黑天鹅》作者Taleb在事件发生后评论称,一个单点的失误就造成了全局的瘫痪,凸显了系统的脆弱性。如何应对这样的脆弱性,避免整个经济活动在毫无应对的情况下陷入瘫痪,是一个更为急迫的话题。
领取专属 10元无门槛券
私享最新 技术干货