CrowdStrike故障导致全球宕机事件始末

原创

星尘安全

发布于 2024-08-12 10:28:44

2190

发布于 2024-08-12 10:28:44

引言

在网络安全领域，CrowdStrike作为全球领军安全公司之一，提供了先进的终端保护和威胁情报服务。然而，2024年7月的一场全球宕机事件揭示了即便是顶尖网络安全公司也会面临的技术和管理挑战。这场事件不仅对众多企业和组织造成了巨大影响，同时也暴露了复杂网络系统中的潜在脆弱性。本文将详细介绍此次故障事件的发生、技术细节分析及其带来的损失和启示。

事件背景

CrowdStrike简介

CrowdStrike成立于2011年，总部位于美国加利福尼亚州，其主要产品是基于云的终端保护平台——Falcon平台，通过实时威胁检测和响应服务，为政府机构、大型企业和中小型公司提供保护。

CrowdStrike的成功源于其创新的技术和对网络安全威胁的快速响应能力。Falcon平台利用机器学习和行为分析技术，能够实时检测和阻止各种复杂的网络攻击。正因如此，CrowdStrike的客户遍布全球，包括许多关键基础设施部门和大型企业。

事件背景

CrowdStrike提供一系列安全软件保护计算机免于网络攻击。旗下漏洞扫描器“猎鹰传感器”（Falcon Sensor）产品在个人电脑操作系统的内核层面安装端点侦测与响应Sensor，以检测和预防威胁。CrowdStrike会定期向客户分发补丁，使他们的计算机能够应对新的威胁。

2009年，微软与欧盟达成协议，要求微软必须向第三方安全软件开发商开放相关应用程序接口（API）。因此，包括CrowdStrike在内的安全软件均拥有系统内核级别的访问权限。
2024年7月18日，即在此次问题更新前，Microsoft Azure云服务发生异常，导致美国中部部分Azure用户无法访问其云存储及Microsoft 365服务。微软表示，两起事件并无关系，但对这些受影响公司的客户来说，问题却更加复杂。
2024年7月19日早上4时09分，部署在Azure的Windows虚拟机开始重启及崩溃，6时48分，Google计算引擎报告此问题。7时15分，Google宣布CrowdStrike更新存在问题。
CrowdStrike首席执行官乔治·库尔茨确定此事由CrowdStrike的异常驱动更新造成，而非网络攻击。

此次事件引发了广泛关注，因为CrowdStrike的Falcon平台广泛应用于全球各地的关键基础设施和企业网络安全防护。许多企业依赖Falcon平台来检测和防御高级持续性威胁（APT），因此这次宕机事件对全球网络安全形势产生了深远影响。

技术分析

事件起因

根据CrowdStrike的自己发布的根因分析，此次事件的直接起因是一项Sensor配置更新的逻辑错误。简单来说，此次故障是由于在更新过程中，Falcon Sensor未能正确处理额外的输入值。这一错误使得系统在尝试访问超出预期范围的内存时发生崩溃。

Sensor的“内容解释器”模块在处理输入数据数组时，尝试访问第21个输入值，导致了内存越界读取。由于Falcon平台的Sensor运行在Windows内核模式下，具有高权限访问，可以访问和控制系统的所有资源，这一错误导致了系统级别的崩溃，最终引发了全球范围的宕机事件。

故障处理

在发现问题后，CrowdStrike立即采取了修复措施，包括停止发布新的配置更新，并回滚了有问题的更新文件。此外，公司还启动了独立的第三方软件安全审查，评估Falcon平台的安全性和质量保证流程。公司承诺将通过这一事件汲取教训，改进内部流程，防止类似事件再次发生。

CrowdStrike的修复措施包括以下几个方面：

停止有问题的更新：立即停止发布和分发有问题的配置更新，防止更多系统受到影响。
回滚更新：对已经受到影响的系统进行回滚，恢复到更新前的状态。
独立审查：引入第三方软件安全公司对Falcon平台的代码和更新流程进行独立审查，确保不存在其他潜在漏洞和问题。
改进测试流程：加强内部测试和质量保证流程，确保每一次更新都经过严格的测试和验证，避免类似错误的发生。

影响与损失

业务影响

此次事件对全球多个行业产生了重大影响。尤其是航空业，Delta航空公司因系统崩溃取消了超过5000次航班，预计损失达5亿美元，此外，许多政府机构和大型企业也遭受了不同程度的业务中断，导致数据丢失和运营停滞，微软通报称，全球共有850万台设备受到影响。

在宕机事件发生后，许多依赖CrowdStrike保护的企业和组织无法正常运行其关键业务系统。这不仅导致了直接的经济损失，还影响了客户信任和企业声誉。一些金融机构由于无法访问关键数据和系统，面临着交易中断和客户资金管理的问题。

经济损失

事件发生后，CrowdStrike的股票价格大幅下跌，在事件发生后的12天内（9个交易日），CrowdStrike股价大跌32%，市值蒸发超250亿美元，股东们称，CrowdStrike对其技术的保证存在重大虚假和误导性声明，公司的市场信誉受到了严重打击。受影响的企业和机构也面临着高额的损失，包括业务中断、客户流失和潜在的法律诉讼费用。