揚州數據恢復:服務器數據恢復,某品牌MSA SAN存儲數據恢復案例
瀏覽量: 次 發布日期:2023-09-13 06:23:05
南京服務器數據恢復,某品牌MSA SAN存儲數據恢復案例
服務器數據恢復環境:
某品牌MSA SAN Storage存儲;
共8塊SAS硬盤:7塊硬盤組成RAID5,1塊熱備盤;
基于RAID5的LUN有6個,均分配給HP-Unix小機使用,上層做的LVM邏輯卷,重要數據為Oracle數據庫及OA服務端。
服務器故障:
RAID5有2塊硬盤損壞,只有一塊熱備盤激活,RAID5癱瘓,上層LUN無法使用。蘇州數據恢復服務器管理員聯系我們數據恢復中心進行數據恢復。
服務器數據恢復過程:
1、南京服務器數據恢復工程師收到硬盤以后檢測所有硬盤沒有發現物理故障,使用硬盤壞道檢測工具檢測也沒有發現壞道。
2、備份數據。使用工具將所有硬盤都鏡像成文件。
南京數據恢復——SAN存儲數據恢復
3、故障分析:
由于硬盤沒有發現壞道和其他物理故障,服務器數據恢復工程師初步判斷RAID故障的原因是某些磁盤讀寫不穩定。因為該型號存儲控制器的磁盤檢測策略嚴格,會把性能不穩定磁盤認定為壞盤并踢出RAID組。一旦掉線的盤超過該RAID允許掉盤的極限,該RAID將不可用,上層基于RAID的LUN也會不可用。
4、分析RAID結構:
該存儲的LUN都是基于RAID的,因此需要先分析底層RAID信息,然后根據分析獲取到的信息重構原始RAID。服務器數據恢復工程師經過分析發現4號盤的數據同其他盤不太一樣,初步判斷該盤是hot Spare盤。接著分析其他盤,分析Oracle數據庫頁在每個磁盤中分布的情況,并根據數據分布的情況分析出RAID條帶大小、磁盤順序、數據走向等RAID信息。
5、分析RAID掉線盤:
根據分析獲取到的RAID信息使用兆柏自主開發的RAID虛擬程序將原始的RAID虛擬重構。但由于該RAID一共掉線兩塊盤,因此需要分析這兩塊硬盤掉線的順序。服務器數據恢復工程師分析每一塊硬盤中的數據后發現有一塊硬盤在同一個條帶上的數據和其他硬盤明顯不一樣,初步判斷此盤是最先掉線的。通過兆柏自主開發的RAID校驗程序對這個條帶做校驗,最終確定最先掉線的硬盤了。
6、分析RAID中的LUN信息:
由于LUN是基于RAID的,將RAID虛擬重構出來以后分析LUN在RAID中的分配情況和LUN分配的數據塊MAP。只需要將每一個LUN的數據塊分布MAP提取出來,然后針對這些信息編寫相應的程序對所有LUN的數據MAP做解析,然后根據數據MAP導出所有LUN的數據即可。
兆柏數據恢復——SAN存儲數據恢復
7、解析LVM邏輯卷:
對導出來的LUN數據做分析發現所有LUN中均包含HP-Unix的LVM邏輯卷信息。通過解析每個LUN中的LVM信息發現一共有三個LVM,一個LVM中劃分了一個LV,存放OA服務器端的數據;另外一個LVM中劃分了一個LV,存放臨時備份數據;剩余4個LUN組成一個LVM,劃分了一個LV,存放Oracle數據庫文件。兆柏服務器數據恢復工程師編寫LVM解釋程序將每個LVM中的LV卷解釋出來,但解釋程序出錯。
8、修復LVM邏輯卷:
分析程序報錯的原因,開發工程師debug程序出錯的位置。文件系統工程師對恢復出來的LUN做檢測,檢測存儲癱瘓是否會導致LMV邏輯卷的信息損壞。經過檢測發現存儲癱瘓確實導致LVM信息損壞。人工對損壞的區域進行修復,并同步修改程序,重新解析LVM邏輯卷。
9、解析VXFS文件系統:
搭建HP-Unix環境,將解釋出來的LV卷映射到HP-Unix,并嘗試Mount文件系統。結果Mount文件系統出錯,嘗試使用“fsck –F vxfs” 命令修復vxfs文件系統,但修復后還是不能掛載。分析可能是底層vxfs文件系統的部分元數據可能被破壞,需要進行手工修復。
10、修復VXFS文件系統:
服務器數據恢復工程師對解析出來的LV進行分析,根據VXFS文件系統的底層結構校驗此文件系統是否完整。經過分析發現底層VXFS文件系統有問題,存儲癱瘓的同時文件系統正在執行IO操作,部分文件系統元文件損壞。手工修復這些損壞的元文件保證VXFS文件系統能夠正常解析。將修復好的LV卷掛載到HP-Unix小機上嘗試Mount文件系統,文件系統沒有報錯,成功掛載。
兆柏數據恢復——SAN存儲數據恢復
11、恢復所有用戶文件:
連云港數據恢復在HP-Unix機器上mount文件系統后將所有數據均備份至指定磁盤空間。
12、檢測數據庫文件是否完整:
使用Oracle數據庫文件檢測工具檢測每個數據庫文件是否完整,沒有發現錯誤。使用兆柏自主研發的Oracle數據庫檢測工具檢測,發現有部分數據庫文件和日志文件校驗不一致,安排數據庫工程師對此類文件進行修復并再次校驗,直到所有文件通過校驗。
13、啟動Oracle數據庫:
將恢復出來的Oracle數據庫附加到原始生產環境的HP-Unix服務器中嘗試啟動Oracle數據庫,Oracle數據庫啟動成功。
數據驗證: