本次故障环境为4台服务器,每台服务器12块盘分为2组raid,共8组raid。经客户描述共4个节点,其中一个节点故障之后仍在继续使用,第二个节故障之后,进行过一系列的重新上线操作,导致管理存储软件无法使用。 为防止在数据恢复过程中由于部分操作对原始磁盘造成不可还原的修改,导致数据出现二次丢失,对原始磁盘进行镜像备份。北亚工程师进行详细分析,获取到5台节点服务器上的所有硬盘的底层镜像。经过分析,发现底层部分索引位图被破坏。对全部镜像文件进行分析,根据底层数据重组raid,并提取每组raid中的map,对数据map进行分析,根据位图手工索引数据,排除部分损坏位图。客户主要数据为SQL server数据库,经初步检测,索引位图有部分损坏,因此若提取数据卷后数据有损坏,可针对数据库进行修复。 【数据恢复过程】 1.重组RAID 工程师对RAID条带大小、盘序、校验方向的关键信息分析后,判断成员盘离线顺序。分别对十组RAID进行重组,并生成RAID镜像文件。
2. 数据卷MAP校验 在RAID中查询并提取数据卷的MAP区域。如图所示:
根据索引位图结构并索引至数据区进行查看,校验MAP信息的完整性和正确性,排除错误索引位图。编写程序,根据MAP结构,对数据MAP进行分析整理,整理出所有关键位图信息。 3.代码编写及数据卷生成 首先根据Lefthand存储相关结构算法,编写相应的数据卷提取程序。再使用编写好的程序对所有数据卷进行提取。
因数据MAP由部分损坏,根据文件系统结构、文件结构等信息对数据卷进行修复并校验提取出的数据卷的完整性及正确性。 4.数据卷解析及修复 工程师分析数据卷中的文件系统,并根据该文件系统的结构,校验文件系统的完整性正确性。对数据卷中的文件系统进行解析,获取所有文件,查看文件完整度和时间信息后提取数据卷中数据。 5.数据库修复 数据文件提取完成,尝试进行附加,由于索引位图有部分损坏,导致SQL server数据库无法直接附加,根据SQL server数据也结构和数据记录存储规则对数据库进行一系列的修复操作。 修复完成后,安装相同版本数据库,将修复完成后的数据插入至新库。
6.数据验证 由客户主导对数据进行验证,经过验证,数据正常可用。此次恢复率在100%。 对于LeftHand存储,我们有着成熟的恢复经验和恢复技术,在存储发生故障时,尽量不要做其他的操作,以免造成不可逆转的结构损坏,请在第一时间进行专业数据恢复。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。