单一故障点、不正确的操作说明以及没有贴上标签的线缆共同导致了这次故障。
(网络图片、仅供参考)
Cloudflare承认,今天持续了4个小时多一点的故障是有人拉出了本不该动的线缆造成的,但由于技术人员按不正确的操作说明行事,结果扯掉了线缆。
这起事件始于“我们的其中一个核心数据中心进行一番计划维护”,技术人员被告知“拆除我们其中一个机柜中的所有设备。”
Cloudflare表示,这个机柜“里面含有我们将要停止使用的旧的非活跃设备,没有机柜中任何服务器上的活跃流量或数据。”
但是这个机柜发生的遭遇并没有这么简单:
该机柜里面还有一只接线板(线缆配电板),它负责为其他的Cloudflare数据中心提供所有的对外连接。在短短3分钟的时间内,停用那个未使用硬件的技术人员还断开了这只接线板中的线缆。
结果发现,该接线板就是Cloudflare数据中心的单一故障点。或正如Cloudflare在事件报告中解释的那样:“从15:31 UTC开始、一直持续到19:52 UTC,由于我们两个核心数据中心中的一个断开了多条冗余光纤连接,Cloudflare仪表板和API无法使用。”另外,Argo智能路由功能也受到了影响,从而导致使用该功能的一些网站出现了问题。
该公司赶紧排查问题,但是这花了一些时间,原因是线缆标签不清晰。而新冠病毒引起的异地办公也无济于事。
该公司倒是没有让技术人员背黑锅,写道需要改变流程,这样表示:“在向技术人员传达停用硬件的操作说明时,我们应明确指出不应该去碰的线缆。”
由于事件期间所有配置数据均得到了保护,至少客户仅仅受到了干扰,而不是受到了破坏。
Cloudflare的首席技术官John Graham-Cumming写道,不过,该公司还是“为这次故障深表歉意”。
领取专属 10元无门槛券
私享最新 技术干货