Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ZFS文件系统服务器无法读取修复案例

ZFS文件系统服务器无法读取修复案例

原创
作者头像
北亚数据恢复中心
修改于 2020-03-04 11:06:40
修改于 2020-03-04 11:06:40
2.2K0
举报
文章被收录于专栏:数据恢复案例数据恢复案例

一、服务器数据恢复环境部署介绍:

今天为大家介绍的数据恢复成功案例服务器型号为:ORACLE-SUN-ZFS7320。服务器内涉及硬盘32块,服务器操作采用的是Windows操作系统。

二、服务器数据恢复故障情况

服务器在正常运行的时候突然崩溃,没有断电、进水、异常操作、机房不稳定等外部因素。服务器管理员对设备进行重启后发现无法进入系统,需要对服务器内的数据进行恢复。

三、分析服务器磁盘底层数据

服务器管理员对所有硬盘进行扇区级镜像后将镜像文件送到数据恢复中心进行数据恢复。服务器数据恢复工程师对客户的故障服务器进行底层数据分析得到如下信息:故障服务器采用zfs文件系统;所有磁盘被分为4个组,每组8块硬盘;热备盘全部启用。

四、服务器故障情况分析

在服务器ZFS文件系统中,池被称为ZPOOL。ZPOOL的子设备可以有很多种类,包括块设备、文件、磁盘等等,在本案例中所采用的是其中的一种------三组RAIDZ作为子设备。

经过分析发现,三组RAIDZ内有两组分别启用热备盘个数为1和3。在启用热备盘后,第一组内仍出现一块离线盘,第二组内则出现两块。以此进行故障现场模拟:三组RAIDZ内第一二组分别出现离线盘,热备盘及时进行替换;热备盘无冗余状态下第一组出现一块离线盘,第二组出现两块离线盘,ZPOOL进入高负荷状态(每次读取数据都需要进行校验得到正确数据);第二组内出现第三块离线盘,RAIDZ崩溃、ZPOOL下线、服务器崩溃。

五、重组ZPOOL,追踪数据入口

ZFS管理的存储池与常规存储不同,所有磁盘都由ZFS进行管理。常规RAID在存储数据时,只按照特定的规则组建池,不关心文件在子设备上的位置。而ZFS在数据存储时会为每次写入的数据分配适当大小的空间,并计算得到指向子设备的数据指针。这种特性使得RAIDZ缺盘时无法直接进行校验得到数据,必须将整个ZPOOL作为一个整体进行解析。

手工截取事务块数据,编写程序获取最大事务号入口:

获取文件系统入口
获取文件系统入口

获取到文件系统入口后,编写数据指针解析程序进行地址解析:

解析数据指针
解析数据指针

获取到文件系统入口点在各磁盘分布情况后,开始手工截取并分析文件系统内部结构,入口分布所在的磁盘组无缺失盘,可直接提取信息。根据ZFS文件系统的数据存储结构顺利找到客户映射的LUN名称,进而找到其节点。

六、编写数据提取程序并运行

经过仔细分析,发现在此存储中的ZFS版本与开源版本有较大差别,无法使用公司原先开发的解析程序进行解析,所以重新编写了数据提取程序。

提取数据程序
提取数据程序

由于磁盘组内缺盘个数较多,每个IO流都需要通过校验得到,提取进度极为缓慢。与客户沟通后得知,此ZVOL卷映射到XenServer作为存储设备,客户所需的文件在其中一个大小约为2T的vhd内。提取ZVOL卷头部信息,按照XenStore卷存储结构进行分析,发现2T vhd在整个卷的尾部,计算得到其起始位置后从此位置开始提取数据。

七、验证数据完整性,服务器数据恢复成功

Vhd提取完毕后,对其内部的压缩包及图片、视频等文件进行验证,均可正常打开。

联系客户验证数据,确定文件数量与系统自动记录的文件个数一致。验证文件可用性,文件全部可正常打开,服务器数据恢复成功。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
ZFS文件系统服务器无法读取修复案例
今天为大家介绍的数据恢复成功案例服务器型号为:ORACLE-SUN-ZFS7320。服务器内涉及硬盘32块,服务器操作采用的是Windows操作系统。
北亚数据安全与救援
2020/11/04
2K0
ZFS文件系统服务器无法读取修复案例
ZFS文件系统与Freenas介绍
ZFS文件系统的英文名称为Zettabyte File System,也叫动态文件系统(Dynamic File System),是第一个128位文件系统。最初是由Sun公司为Solaris 10操作系统开发的文件系统。作为OpenSolaris开源计划的一部分,ZFS于2005年11月发布,被Sun称为是终极文件系统,经历了 10 年的活跃开发。而最新的开发将全面开放,并重新命名为 OpenZFS。
DB之路
2021/04/30
5.1K0
HP存储RAID5硬盘离线LVM下VXFS文件系统恢复教程分享
在HP存储RAID5硬盘离线LVM下VXFS文件系统是如何进行恢复的呢?HP存储也是在企业中常用的存储设备了,本次分享的故障设备为:HP FC MSA2000存储,由于RAID5阵列中出现2块硬盘损坏并离线,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用,整个存储空间由8块450GB SAS的硬盘组成,其中7块硬盘组成一个RAID5的阵列,剩余1块做成热备盘使用。
北亚数据安全与救援
2021/05/07
8480
HP存储RAID5硬盘离线LVM下VXFS文件系统恢复教程分享
存储硬盘离线VXFS文件系统恢复教程
图片1.png 服务器数据恢复故障描述 客户的服务器共有8块450GB SAS硬盘,其中7块硬盘组成一个RAID5阵列,1块热备盘。阵列中2块硬盘损坏并离线,导致RAID5阵列瘫痪,进而影响上层LUN无法正常使用。经工程师检测硬盘无物理故障,无坏道,随后北亚工程师将所有磁盘镜像成文件。 数据恢复过程 一、RAID组结构及掉线盘分析 服务器的LUN都是基于RAID组的,所以需要先对底层RAID组的信息作出分析,再依据这些数据重构原始的RAID组。通过分析得知4号盘为hot Spare盘。继续分析Oracl
北亚数据安全与救援
2021/05/27
2.8K0
存储硬盘离线VXFS文件系统恢复教程
EMC存储崩溃恢复案例
本次分享的案例为EMC FC AX-4存储崩溃,整个存储空间由12块1TB STAT的硬盘组成的,其中10块硬盘组成一个RAID5的阵列,其余两块做成热备盘使用。由于RAID5阵列中出现2块硬盘损坏,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用。由于存储是因为某些磁盘掉线,从而导致整个存储不可用。因此接收到磁盘以后先对所有磁盘做物理检测,检测完后发现没有物理故障。接着使用坏道检测工具检测磁盘坏道,发现也没有坏道。
北亚数据安全与救援
2020/11/24
2K0
存储崩溃的数据恢复通用方法
服务器数据恢复指的是通过技术手段将原本存储在服务器、存储设备内的,由于误操作、硬件故障、恶意攻击等原因丢失的数据进行修复提取的专业技术。在介绍服务器数据恢复前我们首先需要了解服务器的数据结构、文件存储原理,今天小编通过一起华为s5300服务器数据介绍该型号服务器的数据存储结构和数据恢复原理。
北亚数据恢复中心
2019/12/10
9350
存储崩溃的数据恢复通用方法
存储瘫痪抢救Oracle数据库案例
本次分享的案例是关于HP FC MSA2000存储瘫痪抢救Oracle数据库的案例,故障存储整个存储空间由8块硬盘组成,其中7块硬盘组成一个RAID5的阵列,剩余1块做成热备盘使用。由于RAID5阵列中出现2块硬盘损坏,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用。 由于存储是因为RAID阵列中某些磁盘掉线,从而导致整个存储不可用。因此接收到磁盘以后先对所有磁盘做物理检测,检测完后发现没有物理故障。排除物理故障后对数据全部备份后在进行进一步的分析。 【故障分析】 1、分析故障原因 由于前两个步骤并没有检测到磁盘有物理故障或者是坏道,由此推断可能是由于某些磁盘读写不稳定导致故障发生。因为HP MSA2000控制器检查磁盘的策略很严格,一旦某些磁盘性能不稳定,HP MSA2000控制器就认为是坏盘,就将认为是坏盘的磁盘踢出RAID组。而一旦RAID组中掉线的盘到达到RAID级别允许掉盘的极限,那么这个RAID组将变的不可用,上层基于RAID组的LUN也将变的不可用。目前初步了解的情况为基于RAID组的LUN有6个,均分配给HP-Unix小机使用,上层做的LVM逻辑卷,重要数据为Oracle数据库及OA服务端。 2、分析RAID组结构 HP MSA2000存储的LUN都是基于RAID组的,因此需要先分析底层RAID组的信息,然后根据分析的信息重构原始的RAID组。分析每一块数据盘,发现4号盘的数据同其它数据盘不太一样,初步认为可能是hot Spare盘。接着分析其他数据盘,分析Oracle数据库页在每个磁盘中分布的情况,并根据数据分布的情况得出RAID组的条带大小,磁盘顺序及数据走向等RAID组的重要信息。 3、分析RAID组掉线盘 根据上述分析的RAID信息,尝试通过北亚RAID虚拟程序将原始的RAID组虚拟出来。但由于整个RAID组中一共掉线两块盘,因此需要分析这两块硬盘掉线的顺序。仔细分析每一块硬盘中的数据,发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样,因此初步判断此硬盘可能是最先掉线的,通过北亚RAID校验程序对这个条带做校验,发现除掉刚才分析的那块硬盘得出的数据是最好的,因此可以明确最先掉线的硬盘了。 4、分析RAID组中的LUN信息 由于LUN是基于RAID组的,因此需要根据上述分析的信息将RAID组最新的状态虚拟出来。然后分析LUN在RAID组中的分配情况,以及LUN分配的数据块MAP。由于底层有6个LUN,因此只需要将每一个LUN的数据块分布MAP提取出来。然后针对这些信息编写相应的程序,对所有LUN的数据MAP做解析,然后根据数据MAP并导出所有LUN的数据。 【数据恢复过程】 1、解析修复LVM逻辑卷 分析生成出来的所有LUN,发现所有LUN中均包含HP-Unix的LVM逻辑卷信息。尝试解析每个LUN中的LVM信息,发现其中一共有三套LVM,其中45G的LVM中划分了一个LV,里面存放OA服务器端的数据,190G的LVM中划分了一个LV,里面存放临时备份数据。剩余4个LUN组成一个2.1T左右的LVM,也只划分了一个LV,里面存放Oracle数据库文件。编写解释LVM的程序,尝试将每套LVM中的LV卷都解释出来,但发现解释程序出错。 仔细分析程序报错的原因,安排开发工程师debug程序出错的位置,并同时安排高级文件系统工程师对恢复的LUN做检测,检测LVM信息是否会因存储瘫痪导致LMV逻辑卷的信息损坏。经过仔细检测,发现确实因为存储瘫痪导致LVM信息损坏。尝试人工对损坏的区域进行修复,并同步修改程序,重新解析LVM逻辑卷。 2、解析VXFS文件系统 搭建环境,将解释出来的LV卷映射到搭建好的环境中,并尝试Mount文件系统。结果Mount文件系统出错,尝试使用“fsck –F vxfs” 命令修复vxfs文件系统,但修复结果还是不能挂载,怀疑底层vxfs文件系统的部分元数据可能破坏,需要进行手工修复。 3、修复VXFS文件系统 仔细分析解析出来的LV,并根据VXFS文件系统的底层结构校验此文件系统是否完整。分析发现底层VXFS文件系统果然有问题,原来当时存储瘫痪的同时此文件在系统正在执行IO操作,因此导致部分文件系统元文件没有更新以及损坏。人工对这些损坏的元文件进行手工修复,保证VXFS文件系统能够正常解析。再次将修复好的LV卷挂载到HP-Unix小机上,尝试Mount文件系统,文件系统没有报错,成功挂载。 4、检测Oracle数据库文件并启动数据库 在HP-Unix机器上mount文件系统后,将所有用户数据均备份至指定磁盘空间。所有用户数据大小在1TB左右。 使用Oracle数据库文件检测工具“dbv”检测每个数据库文件是否完整,发现并没有错误。再使用北亚Oracle数据库检测工具,发现有部分数据库文件和日志文件校验不一致,安排北亚工程师对此类文件进行修复
北亚数据安全与救援
2021/11/15
7350
恢复服务器安装信息被破坏了,服务器存储瘫痪数据恢复成功案例-服务器数据恢复…
机房突然断电导致整个存储瘫痪,加电后存储依然无法使用。经过用户方工程师诊断后认为是断电导致存储阵列损坏。
全栈程序员站长
2022/06/24
3.3K0
恢复服务器安装信息被破坏了,服务器存储瘫痪数据恢复成功案例-服务器数据恢复…
服务器崩溃导致数据库损坏的修复方法
故障服务器上一共16块FC硬盘,单盘容量600G。存储前面板10号和13号硬盘亮黄灯,存储映射到redhat上的卷挂载不上,服务器业务崩溃。
北亚数据恢复中心
2019/10/25
2.7K0
存储上的数据丢失了怎么恢复
需要进行数据恢复的服务器共10个磁盘柜,每个磁盘柜满配24块硬盘。其9个存储柜用作数据存储使用,另外1个存储柜用作元数据存储使用。元数据存储中共24块146G硬盘,其中设置了9组RAID 1阵列,1组4盘位RAID 10阵列,4个全局热备硬盘。
北亚数据恢复中心
2019/08/21
2.2K0
存储上的数据丢失了怎么恢复
存储卷丢失,虚拟机不可访问的解决方法,数据全恢复
存储环境部署及存储数据恢复故障的起因:某公司的NetApp FAS-8200存储,使用96块磁盘组建两组存储池,存储池互为镜像。存储池内划分卷并映射到ESXI作为数据存储使用,卷内虚拟机数量约300+。在操作过程中由于未知原因导致卷丢失,卷内虚拟机不可访问。该公司的管理员先进对存储进行了简单的检查和数据恢复但是没有成功,由于存储内有公司重要数据,管理员不敢妄动,只好联系北京的存储数据恢复公司进行专业数据恢复。
北亚数据恢复中心
2019/08/06
2K0
存储卷丢失,虚拟机不可访问的解决方法,数据全恢复
服务器数据恢复案例介绍;服务器崩溃修复
某法院的一台服务器由于硬盘出现故障导致服务器崩溃,在当地一家数据恢复机构进行了数据恢复操作,但是数据恢复没有成功,于是负责人在北京寻找服务器数据恢复公司进行数据恢复。这台服务器的基本配置情况如下图中所示。
北亚数据恢复中心
2019/10/23
1.9K0
服务器数据恢复案例介绍;服务器崩溃修复
服务器文件系统损坏,只需要这个教程轻松解决
今天为大家介绍一个Linux服务器数据恢复成功案例,本次服务器数据恢复物理服务器请款如下:客户故障服务器为一台X3850服务器,这个服务器是由4块146G SAS硬盘组成的RAID5作为存储介质,文件系统全都是reiserfs。我们首先经过分析发现了之前的硬盘数据组织结构是由一个不到100M的boot分区,后接一个271G的LVM卷,之后是2G的swap分区。LVM卷中直接划分了一个reiserfs文件系统,作为根分区。
北亚数据恢复中心
2020/02/05
1.4K0
服务器文件系统损坏,只需要这个教程轻松解决
DELL服务器数据恢复成功案例
DELL EqualLogic PS6100采用虚拟ISCSI SAN阵列,为远程或分支办公室、部门和中小企业存储部署带来企业级功能、智能化、自动化和可靠性。以简化的管理、快速的部署及合理的价格满足了分支办公室和中小企业的存储需求,同时提供全套企业级数据保护和管理功能、可靠的性能、可扩展性和容错功能,是中型企业级存储的起点产品,但某些物理故障或其他操作都可能会对卷或存储造成破坏,因此对系列存储的数据恢复技术才有了用武之地。而发生这些故障之后只能找专业的数据恢复公司做数据挽救工作。北亚数据恢复中心宋工最近处理过一起DELL EqualLogic PS 6100因磁盘故障导致存储不可用的案例:
全栈程序员站长
2022/09/07
1.5K0
DELL服务器数据恢复成功案例
VSAN存储结构解析+存储数据恢复案例
今天给大家介绍一的是一款常见存储设备-Vsan的结构原理,相对而言技术性文字较多。VSAN是一种以vSphere内核作为基础开发出来的一款可以扩展使用的分布式存储架构。这款存储在vSphere集群主机中安硬盘及闪存构建出VSAN存储层,通过存储进行管理与控制,最终形成一个共享存储层。
北亚数据恢复中心
2019/10/18
1.5K0
VSAN存储结构解析+存储数据恢复案例
SQL server数据库恢复案例分析
本次故障环境为4台服务器,每台服务器12块盘分为2组raid,共8组raid。经客户描述共4个节点,其中一个节点故障之后仍在继续使用,第二个节故障之后,进行过一系列的重新上线操作,导致管理存储软件无法使用。 为防止在数据恢复过程中由于部分操作对原始磁盘造成不可还原的修改,导致数据出现二次丢失,对原始磁盘进行镜像备份。北亚工程师进行详细分析,获取到5台节点服务器上的所有硬盘的底层镜像。经过分析,发现底层部分索引位图被破坏。对全部镜像文件进行分析,根据底层数据重组raid,并提取每组raid中的map,对数据map进行分析,根据位图手工索引数据,排除部分损坏位图。客户主要数据为SQL server数据库,经初步检测,索引位图有部分损坏,因此若提取数据卷后数据有损坏,可针对数据库进行修复。 【数据恢复过程】 1.重组RAID 工程师对RAID条带大小、盘序、校验方向的关键信息分析后,判断成员盘离线顺序。分别对十组RAID进行重组,并生成RAID镜像文件。
北亚数据安全与救援
2021/11/08
8490
构建我的第一个 22TB 容量的家庭存储服务器
今年我决定给自己量身定制一台家庭网络存储服务器(也就是 NAS),预计存储容量有 32TB,并使用开源的操作系统,用来存储我的个人和商业数据。
米开朗基杨
2022/11/07
6.5K0
构建我的第一个 22TB 容量的家庭存储服务器
Oracle数据库恢复案例
客户故障存储设备为IBM V5000存储,由于存储设备的控制器损坏,导致存储中数据卷无法访问,需恢复数据卷中的Oracle数据库文件。
北亚数据安全与救援
2020/12/02
1.6K0
Oracle数据库恢复案例
RAID出故障如何做好应急处理
当RAID出现: 1、RAID控制台里描述超过允许范围内的盘数异常,如RAID0里一块以上盘异常;RAID5(无热备)里2块以上盘异常;异常表现为OFFLINE或DDD、BAD等;2、服务器存储系统报警(喇叭或警示灯);3、系统无法识别RAID 逻辑硬盘等问题时,现场工程师应该如何操作才能挽救数据呢?(此方案适用 IBM、HP、SUN、DELL、DFT、APPLE、联想、方正等品牌服务器;RAID0、RAID1、RAID2、RAID3、RAID4、RAID5、RAID6、HP ADG、RAID10、RAID50、RAID1E、RAID5E、RAID5EE等;NAS、DAS、SAN等。)
北亚数据安全与救援
2021/04/07
1.9K0
RAID出故障如何做好应急处理
IBM存储RAID5数据恢复案例
本次北亚小编分享的案例是关于IBM存储DS3512,6块盘,坏了多块盘,导致阵列失效,数据丢失。
北亚数据安全与救援
2021/02/01
1.5K0
IBM存储RAID5数据恢复案例
相关推荐
ZFS文件系统服务器无法读取修复案例
更多 >
LV.1
这个人很懒,什么都没有留下~
加入讨论
的问答专区 >
1先锋会员擅长3个领域
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档