首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

技术人员猛拉一些 IDC 线缆:Cloudflare的仪表板和API瘫痪了整整4个小时!

单一故障点、不正确的操作说明以及没有贴上标签的线缆共同导致了这次故障。

(网络图片、仅供参考)

Cloudflare承认,今天持续了4个小时多一点的故障是有人拉出了本不该动的线缆造成的,但由于技术人员按不正确的操作说明行事,结果扯掉了线缆。

这起事件始于“我们的其中一个核心数据中心进行一番计划维护”,技术人员被告知“拆除我们其中一个机柜中的所有设备。”

Cloudflare表示,这个机柜“里面含有我们将要停止使用的旧的非活跃设备,没有机柜中任何服务器上的活跃流量或数据。”

但是这个机柜发生的遭遇并没有这么简单:

该机柜里面还有一只接线板(线缆配电板),它负责为其他的Cloudflare数据中心提供所有的对外连接。在短短3分钟的时间内,停用那个未使用硬件的技术人员还断开了这只接线板中的线缆。

结果发现,该接线板就是Cloudflare数据中心的单一故障点。或正如Cloudflare在事件报告中解释的那样:“从15:31 UTC开始、一直持续到19:52 UTC,由于我们两个核心数据中心中的一个断开了多条冗余光纤连接,Cloudflare仪表板和API无法使用。”另外,Argo智能路由功能也受到了影响,从而导致使用该功能的一些网站出现了问题。

该公司赶紧排查问题,但是这花了一些时间,原因是线缆标签不清晰。而新冠病毒引起的异地办公也无济于事。

该公司倒是没有让技术人员背黑锅,写道需要改变流程,这样表示:“在向技术人员传达停用硬件的操作说明时,我们应明确指出不应该去碰的线缆。”

由于事件期间所有配置数据均得到了保护,至少客户仅仅受到了干扰,而不是受到了破坏。

Cloudflare的首席技术官John Graham-Cumming写道,不过,该公司还是“为这次故障深表歉意”。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200416A0K2EI00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券