首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >谷歌云删库宕机一周:千亿基金数据和备份被删光,技术负责人当场被裁,谷歌最后只说一句 Sorry?

谷歌云删库宕机一周:千亿基金数据和备份被删光,技术负责人当场被裁,谷歌最后只说一句 Sorry?

作者头像
深度学习与Python
发布于 2024-05-14 06:31:44
发布于 2024-05-14 06:31:44
2520
举报
作者|冬梅、核子可乐

Google Cloud 此番闹出“史无前例的错误配置”,使得金融服务提供商的私有云账户遭到删除,最终导致超 50 万 UniSuper 基金会员在一周时间中无法访问自己的退休金账户。

1 62 万会员无法访问自己的基金账户,UniSuper 控诉“这全怪谷歌云”

上周,澳大利亚养老金巨头 UniSuper 的服务器发生中断,导致会员无法在线访问服务器也无法登录移动应用程序,原因是“Google Cloud 出现了罕见问题,导致在配置 UniSuper 私有云期间无意中出现配置错误,影响了养老基金的二级系统”。说白了,就是该基金的 Google Cloud 账户被大规模删除,并且 Google Cloud 还删除了 UniSuper 在其他地方的备份数据。

如果不是在其他云上有备份,那此次 UniSuper 的整个云基础设施都将毁于一旦。

宕机时间大概持续了一周的时间,直到上周四,UniSuper 客户终于逐步迎来服务恢复。投资账户余额将能够反映这失落一周的数据,UniSuper 表示会尽快更新期间的内容。

Unisuper 是一个退休基金,为澳大利亚高等教育和研究部门的成员管理退休储蓄。该基金拥有 62 万名会员和 1250 亿澳元的资产,按会员数量排名澳大利亚第 13 位,按管理资产排名第 7 位。

由于 Unisuper 会员无法访问他们的账户,该基金必须从不同提供商的备份中恢复数据,因为此次删库影响了谷歌服务上存储的两个冗余实例。

事件发生后,UniSuper 基金负责人及 Google Cloud 全球 CEO 发表联合声明,二人就此次中断向会员们致歉,并表示如此情形“非常令人沮丧和失望”。

他们提到,此次中断源自配置错误所引发的 UniSuper 云账户意外删除,而这种情况在 Google Cloud 上从未发生过

二人指出,“Google Cloud CEO Thomas Kurian 已经证实,此次中断是由一系列史无前例的状况所引发,先是在交付 UniSuper 私有云服务期间意外包含错误配置,并最终导致 UniSuper 私有云订阅被删除。”

“这是一次孤立且「史无前例的事件」,以往全球任何 Google Cloud 客户都从未发生过这种情况。当然,这一切本不该发生。Google Cloud 已经确认此次中断的根源,并采取措施以确保同样的情况绝不会再次发生。”

UniSuper CEO Peter Chun 于周三晚间致信该基金的 62 万名会员,解释称此次服务中断并非由网络攻击所造成,且没有任何个人数据因服务中断而泄露。Chun 强调,谷歌的云服务才是引发问题的根源。

虽然 UniSuper 往往会在两个地理区域内部署重复服务,以确保如果其中一项服务发生故障或数据丢失,可利用另一项轻松恢复。但此次事件中该基金的云订阅被删除,而两个地区的备份也随之执行了删除。

UniSuper 最终之所以能够恢复服务,是因为该基金在另外一家云服务商处留有备份。UniSuper 表示:“ Google Cloud 并不是 UniSuper 使用的唯一云服务提供商,这一规划确保了我们恢复服务并最大程度地减少数据丢失的能力。”

“为了恢复 UniSuper 私有云实例,双方团队付出了极大的关注、努力及合作,最终实现了对全部核心系统的广泛恢复。”

“UniSuper 与 Google Cloud 的通力配合与不懈努力让我们的私有云得到广泛恢复,其中涵盖数百套虚拟机数据库以及应用程序。”

截至 5 月 10 日,在 UniSuper 首席会员兼咨询官 Danielle Mair 向会员发送的电子邮件中显示,

UniSuper 会员已经可以在线登录他们的账户,查看他们的余额并查看他们账户的最新投资表现。但值得注意的是,显示的账户余额可能无法反映因中断而尚未处理的交易。

Danielle Mair 表示,他们的团队正在尽快处理交易,以尽量减少会员的延误。

目前尚不清楚到底是什么原因导致了这一事件,但 Google Cloud 反复强调,此次宕机不是由恶意行为或网络攻击引起的。但不得不注意到,对于此次宕机事故,谷歌到目前为止只是进行了抱歉,其他更细节的内容丝毫没透露。

2 耗时 6 个月迁移到谷歌云,不到一年账户全被删了

事实上,Unisuper 迁移到 Google Cloud 上的时间并不算长。

去年 6 月,据外媒报道,在云咨询公司 Kasna 的帮助下,Unisuper 已将所有非生产工作负载(包括约 1900 个虚拟机)从澳大利亚数据中心转移到 Google Cloud,并在去年 9 月份完成迁移,迁移时间总共为 6 个月。

据 UniSuper 称,该公司的 IT 设置由两个数据中心组成,一个位于墨尔本港,另一个位于维多利亚州米彻姆。有关这两个数据中心的具体细节尚未公布。

该公司还在 Microsoft Azure 中拥有云服务。2017 年,该公司在墨尔本港设施发生火灾后经历了一次宕机中断。最终,UniSuper 的计划是完全退出其企业数据中心。

Unisuper 已于 2023 年将大部分业务迁移到 Google Cloud 平台,此前曾将这些工作负载分配给 Azure 和自己的两个数据中心。此次迁移包括将所有非生产工作负载(包括 1,900 个虚拟机)转移到 Google Cloud。

当时,UniSuper 架构主管 Sam Cooper 告诉《ITNews》:“对我们来说,迁移到 Google Cloud 的关键吸引力是因为团队熟悉谷歌的技术,我们的底层就是 Google 引擎。”

该公司希望此次向云的迁移将使 UniSuper 能够快速扩展并满足潜在的业务增长机会。UniSuper 去年还收购了 Australian Catholic Superannuation,并希望增加有机和无机增长,也推动了这一举措。

“我们需要能够利用云提供商来快速做到这一点,并且能够以一种为我们提供适当风险缓解的方式做到这一点,” Cooper 说。

UniSuper 在选择云供应商时向 AWS、微软和谷歌进行了招标,最终选择了 Google 作为最佳匹配。该公司称不会将应用程序拆分和重建为云原生,这是一个重要的选择,因为有些应用程序还没有准备好采用云原生,这意味着 UniSuper 可以快速、安全地迁移到云以获得必要的可扩展性。

也就是说,Unisuper 才迁过来不到一年时间,就碰上了谷歌云“史无前例”的大宕机。

3 在宕机这件事上,没有一家云厂商能幸免

此次宕机事件后,5 月 11 日,Twitter 上一位宣称是 Google Cloud 澳大利亚云服务总监 Kenneth Dredd 表示自己已经被谷歌直接解雇。

我被谷歌裁员了。我之前是谷歌云计算服务澳大利亚区负责人,负责我们客户的数据显示。 我在上传一份报告到 UniSuper 账户时意外删除了数据,报告内容显示我们的算法在他们环境、社会和治理(ESG)披露中检测到了过于乐观的前瞻性声明。 我已经接受了谷歌慷慨的离职补偿,在 CEO 的祝福下,我将继续直接向澳大利亚证券和投资委员会(ASIC)追查绿色洗钱事件。 ps:绿色洗钱,也称为洗绿,指的是掩饰实际利益关系,通过合伙人、小股东、社会资金等形式将利益转移到私人领域而形成的非法投资或融资活动。这一术语源于 1998 年“马尔克斯事件”,即马尔克斯公司下属公司高管史柯廷利用该公司并购明尼苏达铁路公司的机会,通过洗绿来谋取私利。洗绿一词很快就在财经界、政界和社会上流行起来,以代表非法牟利的概念。

至于以后是否会继续使用 Google Cloud?UniSuper 首席会员兼咨询官 Danielle Mair 在邮件中表示,UniSuper 非常重视为会员提供可靠服务的责任。团队工作的重点是让系统快速、安全、可靠地重新上线。

与此同时,他们正在与 Google Cloud 密切合作,以完成完整的根本原因分析。Google Cloud 已确认这是前所未有的孤立事件,并且已采取措施确保此问题不会再次发生。UniSuper 将评估这一事件,并确保公司处于最佳位置,为会员提供服务。

对于 Danielle Mair 这样的回复,网友调侃,“他仿佛什么都说了,又好像什么也没说”。

事实上,云和其他网络中断时有发生,全球一些主流的云厂商(包括 AWS、Microsoft Azure 等)都曾经历过这些情况。例如,2023 年 6 月,AWS 发生了一场持续两个多小时的事件,影响了美国东海岸的多项服务。去年 9 月, 微软 Azure 在澳大利亚的数据中心也出现过宕机,导致用户无法访问 Azure、 Microsoft 365 和 Power Platform 服务超过 24 小时。

EIRTrend 和 Parekh Consulting 首席执行官 Parekh Jain 指出,这些问题通常会很快得到解决,但 UniSuper 的中断的持续这么长时间的确是个例外。从声誉的角度来看,这可能会损害 Google,并导致客户对该公司作为 CSP 缺乏信任。“当前澳大利亚 Google Cloud 上的 UniSuper 云中断需要非常长的时间才能解决,这对 Google Cloud 在该地区的声誉产生了负面影响,”他指出。

Jain 补充说,此类中断还可能导致客户业务中断和数据丢失,这就是为什么许多人倾向于采用多云策略进行风险管理。

参考链接:

https://www.theguardian.com/australia-news/article/2024/may/09/unisuper-google-cloud-issue-account-access

https://www.datacenterdynamics.com/en/news/unisuper-private-cloud-outage-caused-by-google-cloud-issues/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 InfoQ 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
2018年的十大云宕机事件,你中枪没?
无论原因如何或最终影响范围的有多大,一旦出现宕机,企业对公有云的信心都会出现动摇。
人称T客
2018/12/29
9670
造价330亿,谷歌数据中心爆炸,致3人受伤,谷歌搜索出现全球性宕机
综合美媒消息,当地时间8日中午,位于美国爱荷华州的谷歌数据中心发生爆炸,造成3人受伤,目前已被送医。
李洋博客
2022/09/21
7850
造价330亿,谷歌数据中心爆炸,致3人受伤,谷歌搜索出现全球性宕机
全球骨干网中断 4 小时:谷歌云、AWS、Azure 等均受到影响
2022年6月7日,07:00 PDT(14:00 UTC)前夕从中东和亚洲地区开始出现的网络电缆断裂导致了网络问题。 亚非欧1号(AAE-1) 亚非欧1号(AAE-1)电缆是由一个电信财团运营的25000公里长的海底电缆,它经由埃及将东南亚与欧洲连接起来。 据网络监控公司Kentik的互联网分析主管Doug Madory表示,AAE-1出现的问题影响了东非、中东和南亚多个国家的互联网连接,其中包括巴基斯坦、索马里、吉布提和沙特阿拉伯。 Madory称:“此事件产生了广泛的影响,但似乎正在恢复中。除了只
云头条
2022/06/09
4140
全球骨干网中断 4 小时:谷歌云、AWS、Azure 等均受到影响
Expedient公司是如何构建企业云的
托管服务可以满足用户的一系列需求,从将工作负载和数据迁移到云平台,到协调组织对多个云平台的使用,再到构建云原生应用程序。Expedient公司希望消除管理多云环境的某些复杂性,其中包括为所有虚拟机、容器以及跨云平台和内部部署的主机托管提供自动化、可见性、安全性和网络的标准基础,在成本、性能和合规性等领域对云服务进行持续优化,并消除随之而来的风险。
静一
2021/03/26
9950
2017年云计算和数据中心产业的回顾与总结
随着企业将越来越多的工作负载迁移到云端,云计算提供商需要越来越多的数据中心空间和能力来支持这些工作负载。 如果回溯到2016年,很多大型企业的数据中心工作负载正计划向云端迁移。而2017年则是企业的业务向云端迁移的一年,这种迁移在整个数据中心行业引起了很大的反响,为云计算技术供应商和数据中心提供商带来了巨大的变化。 数据中心基础设施供应商Vertiv公司(前身为艾默生网络能源)已经重新调整了策略、资源,以及产品组合,以满足客户将其业务托管到云基础设施的需求。由于云计算提供商将开发自己的硬件设计和供应链功
静一
2018/03/28
9260
2017年云计算和数据中心产业的回顾与总结
银行的云计算应用
1963 年,DARPA(美国国防高级研究计划局)向麻省理工学院提供了约 200 万美元的津贴,启动了著名的 MAC 项目,要求麻省理工开发“多人可同时使用的电脑系统”技术。当时麻省理工就构想了“计算机公共事业”,即让计算成为像电力一样供应。这个项目产生了“云”和“虚拟化”技术的雏形。
用户6900693
2020/04/10
3.2K0
谷歌宣布扩展 3 个新的亚太云区域
作者 | Steef-Jan Wiggers 译者 | 明知山 策划 | 丁晓昀 谷歌云在全球拥有 34 个地区和 103 个可用区域,为全球 200 多个国家和地区的客户提供云服务。最近,谷歌宣布将把业务扩展到马来西亚、泰国和新西兰这 3 个新的云区域。此前宣布的其他 6 个区域分别是柏林、达曼、多哈、墨西哥、特拉维夫和都灵。 谷歌云亚太区副总裁 Karan Bajwa 在谷歌云博客上发表的一篇文章中表示,谷歌的云计算扩张是基于 IDC 的一项预测数据,到 2025 年,亚太地区(不包括日本)的
深度学习与Python
2023/03/29
7420
谷歌宣布扩展 3 个新的亚太云区域
微软云服务宕机超24小时 企业关键业务如何避免被“拖累”
提起“宕机”这个词,估计大多数企业管理层,技术人员都不会陌生。8月,微软的公有云服务以及Office365等软件,因为澳大利亚的极端天气,备用方案未能及时响应,导致澳洲用户出现了超过24小时的云服务“暂停”。
UniPro
2023/09/26
2900
微软云服务宕机超24小时 企业关键业务如何避免被“拖累”
AT&T将谷歌云融入其NetBond for Cloud平台
AT&T将Google添加到其NetBond for Cloud平台上,允许企业将工作负载安全地转移到Google云平台(GCP)中,作为其多云策略的一部分。 谷歌今年4月推出的合作伙伴互连平台促成了与AT&T的合作,该平台提供与GCP的私有连接,并且能够以高达10 Gb/s的速度访问远程数据中心。 AT&T商业联盟业务发展副总裁Andy Daudelin表示,该运营商一直在等待谷歌提供私有连接平台,然后再与该云计算巨头集成,推动多云战略的发展。将谷歌云平台纳入到多云产品组合中进一步补充了
SDNLAB
2018/06/11
1.1K0
2017年云计算的回顾与总结
如果回溯到2016年,很多大型企业的数据中心工作负载正计划向云端迁移。而2017年则是企业的业务向云端迁移的一年,这种迁移在整个数据中心行业引起了很大的反响,为云计算技术供应商和数据中心提供商带来了巨大的变化。 数据中心基础设施供应商Vertiv公司(前身为艾默生网络能源)已经重新调整了策略、资源,以及产品组合,以满足客户将其业务托管到云基础设施的需求。由于云计算提供商将开发自己的硬件设计和供应链功能,IT硬件供应商因为这种核心价值主张在市场发展中苦苦挣扎。惠普企业(Hewlett Packard Ente
BestSDK
2018/03/02
1.1K0
云计算应用中的7个常见问题及其解决方法
云计算行业专家对他们面临的问题以及如何解决或减轻这些问题进行了分析和探讨。如果组织的解决方案或其他API内置了REST API,需要确保所有通信都是通过与云计算无关的API进行的,这样一来,当用户从AWS云平台迁移到谷歌云平台或Microsoft Azure时,实际上就有了一种更好的方式来迁移应用程序和数据。
静一
2021/03/26
1.5K0
混合云:架起内部部署和云计算之间的桥梁
如今,我们都听说过“公共云”、“私有云”、“托管”这些词,以及更多的涉及到云计算的术语,但目前对于组织机构最流行的术语是什么?答案是所有这些。 当企业试图摈弃自己的所有计算服务,以求得云计算之间的平衡时,合理的中间立场已经出现:混合云。 最近的一项调查预测,IT预算不断增长的比例将会驱使内部部署的能力迁移到场外服务,如托管IT云和公共云。虽然这似乎是一种不可避免的进展,这将是渐进的,并且混合云是两个服务部署模型之间的有利桥梁。 许多企业在其内部部署的技术方面拥有庞大的资本投资,而且往往会有两三年的折旧成本,
静一
2018/03/26
1.2K0
三大云厂同时瘫了?Cursor、ChatGPT跟着倒下!网友:整个互联网都要废了
北京时间昨天晚上,在 X 上,有网友称 AWS、谷歌云、Azure 和 Cloudflare 同一时间发生了中断。
深度学习与Python
2025/06/15
1330
三大云厂同时瘫了?Cursor、ChatGPT跟着倒下!网友:整个互联网都要废了
数据中心的未来:墙壁倒塌了
信用报告巨头Experian plc的开发人员编写代码时根本不知道它们是否会在公司的数据中心内运行,还是一个被称为托管中心租用的空间里,亦或是在云端,再或者是这三个都有。
SDNLAB
2018/09/25
6290
数据中心的未来:墙壁倒塌了
云存储详解,企业数据该如何上云?
Google副总裁Kent Walker曾表示,截止到2000年,人类历史上存储的总数据量大约只有12EB,但根据IDC预测,到2020年全球总数据量将激增到40ZB(注:1ZB=1024EB,IEB=1024PB,IPB=1024TB)。显然,随着总体数据量的迅速增长,传统的存储方式已经不能满足当前企业的存储需求,因此,众多的IT经理开始去选择云存储服务以应对数据增长的挑战。 在Interop ITX 2018年的一项调查(Interop ITX 2018 State of Infrastructure
人称T客
2018/06/06
3.7K0
公有云?混合云?千亿市场的未来之路
根据研究公司 Gartner 发布的最新公有云研究报告。预计2015年全球公有云市场收入将达到1129 亿美元,复合年增长率为 18.5%。被纳入公有云市场空间测算范畴的包括全球领先的公有云服务商Amazon的AWS,大型互联网公司Facebook、Google、Tencent和运营商Verizon等。虽然全球公有云服务增值迅速,但不同区域的发展存在差异,北美地区占比最高,占总支出量的59%,西欧地区排名第二,占比24%。增长率最高的则是新兴市场,包括亚洲(中国、印度)、拉丁美洲和俄罗斯地区。 随着公有云市
静一
2018/03/20
1.2K0
公有云?混合云?千亿市场的未来之路
2020云计算现状报告:云采用和技术趋势
Flexera公司一年一度发布的云计算现状调查报告提供了当前云计算市场的全面视图,详细介绍了面临的挑战、采用趋势、技术使用、成本支出等方面的内容。
静一
2020/05/25
3K0
云服务最重要的“看门狗”——IaaS
从制造业、金融服务到公共部门的行业中的公司信任云服务提供商及其关键的数据,软件即服务(SaaS)应用程序(如Office 365和Salesforce)的快速增长取决于信任。但是,SaaS在IT安全专
BestSDK
2018/03/02
1.2K0
云服务最重要的“看门狗”——IaaS
什么是混合IT?
混合IT是一种企业计算模型,其中组织通过传统的内部IT系统提供一些资源,同时还将云计算服务的某种组合用于其他资源。混合IT云架构(无论是公共的还是私有的)的特点是基于需求的可扩展性、用户易于提供以及测量和计量的使用。
静一
2019/05/08
1K0
什么是混合IT?
从谷歌事故报告看技术透明度:我们差的不是SRE,是承认问题的勇气
Spanner:作为Google的全球级分布式数据库(Globally-Distributed Database),其强大的扩展性支撑了这一模式,可扩展至数百万台机器、数百个数据中心和上万亿行数据,是地球上最大的单一数据库。
早起的鸟儿有虫吃
2025/06/20
1270
从谷歌事故报告看技术透明度:我们差的不是SRE,是承认问题的勇气
推荐阅读
相关推荐
2018年的十大云宕机事件,你中枪没?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档