现在许多新型号的汽车都会使用一种名为“Run-flat”的低压防爆轮胎来保证车辆在行驶过程中遭到意外之后的行动力,以便于车内的司机还有乘客有更大的机会脱离险境或者将车子开到修车厂。
同样地,对于经常使用云服务的用户和团队,以及拥有私有云的企业,甚至是云服务提供商本身而言,云端数据中心发生意外时能够延长补救时间,降低数据损失的“防爆”机制也越来越重要。因此,存储在云端的数据也迫切需要类似“Run-flat”轮胎的安全功能。
怎么降低硬盘数据丢失? 防爆硬盘技术
事实上保存在云端——也就是数据中心的数据,其介质使用的仍然是硬盘。或许是由于Google在年初发表的一篇关于数据中心硬盘重塑的文章影响,微软和相关的行业团队正在研究许多厂商不曾关注到的领域——数据中心硬盘防爆。
在消费级市场,硬盘防爆早已经不是新鲜事:如果消费者电脑中的硬盘出现了难以恢复的逻辑坏道,那么我们完全可以通过工具或者操作系统自带的磁盘管理软件对坏道进行屏蔽,而屏蔽了坏道之后的硬盘仍能够继续使用。但是在为云计算服务的数据中心机组中,一块硬盘一旦出现了坏道,由于服务器端数据存储的连续性,可能对导致整块硬盘出现故障,甚至整个服务器机组都会出现宕机,所以微软Azure团队正在研究能够让服务器自主识别并对出现坏道的硬盘进行处理的功能。
怎么降低硬盘数据丢失? 防爆硬盘技术
科罗拉多州Longmont的存储架构师Joe Breher正在与Azure团队一道研究相关课题。他表示,现在的数据中心磁盘出现故障的可能性越来越高,对工作人员处理紧急情况的要求也越来越高,但事实上这样的故障可能只是源于一个坏道,而这个坏道完全可以被屏蔽,让这块出问题的硬盘继续工作,直到新的硬件到来。
让服务器识别并对坏道进行排除正是Joe Breher提出的一个构想,因为对于类似HPE、Cisco等大型企业而言,服务器维护都是一件难以容忍的事情,因此宕机等导致服务器无法运作的故障自然更不能忍受。那么能够自主检查磁盘坏道并进行屏蔽,而且不影响整体运作的机制就显得更有必要。
不仅如此,Joe Breher还认为,这种机制如果能够在线运行将会更好。他表示,在线排爆的主机能够主动断开这块硬盘的逻辑区块地址,而让其余部分继续运行,并且这种方法理论上能够直接用于SSD。
为了保证出现坏道的硬盘能够长期安全地暴露在视野中,硬盘排爆研究团队需要面临的另一个挑战就是令系统将硬盘中的文件认作“部分可用”,以便于相关工作人员迅速发现坏道并及时更换硬件。其实,这样的做法也有另外一种用途,就是在新的硬件无法跟进的情况下,这款出现问题的硬盘仍能够在正常寿命中进行工作,并且由于HDD无可比拟的稳定性,硬盘进行“带病工作”出现的风险也较小。
怎么降低硬盘数据丢失? 防爆硬盘技术
目前这个项目需要投入12至18个月的时间,并且不包括对系统重新识别硬盘的机制进行更新的时间,但Azure团队已经在为离线硬盘排爆功能的上线做着准备了。Azure存储硬件团队的经理Aaron Ogus表示,在以后的迭代中,存储团队将与文件系统团队合作,开发真正的在线硬盘排爆功能。
一旦时机足够成熟,我们就会投入6到12个月的时间开发线下版本。届时我们会频繁召开会议,并积极推动这项功能的研发。只要我们能够做出来离线版的排爆工具,在线版就只是优化问题而已。
领取专属 10元无门槛券
私享最新 技术干货