硬盤數据恢复服務 磁盤陣列數据恢复 數据庫恢复 文件恢复 技術文檔 聯系我們
鄭重承諾:恢复不出數据不收費;硬盤數据檢測免費;對客戶數据的安全負責;恢复出的數据絕對保密!
 
數据修复聯系電話:021-52730141
硬盤馬達技術剖析
硬盤的內部結构圖1
硬盤數据保護技術
硬盤的內部結构圖2
硬盤數据存儲原理
數据恢复的基礎知識
災難數据恢复案例分析
硬盤常見的一些故障處理
走進數据-恢复
潛入西部數据硬盤工厂(上)
一些盤夫開盤數据-恢复圖片
潛入西部數据硬盤工厂(下)
硬盤數据突然丟失的原因
Ext2文件系統
 

金融公司災難數据恢复案例分析



   VERITAS金融公司提供

   有些金融公司災難是可以預料的,如洪水、暴風雪和其他自然現象都可以預測,并可做好相應准備,至少做好部分准備。而其他一些災難則沒有預兆。當一場突發的電力火災難毀坏弗吉尼亞州一家金融公司的數据中心時,職員們根本沒有時間采取額外的防范措施。他們必須要有周詳的恢复計划,才可能使業務存活下去。

   火災難中,一名系統管理員喪生,數名其他人員受傷,多數因為吸入煙塵而致。火災難毀坏了90台服務器和与之相連的存儲設備、數据和應用軟件。建筑本身完全被毀。人員一旦疏散,就無法返回。

   該金融公司的本地區主數据中心就位于被火災難毀坏的建筑內。有些地區業務在該地區的其他建筑中運營。

   火災難發生時,建筑內的人員被疏散。數据中心運營負責人直接來到大約一英里半之外的本地備份數据中心,這里正好是地區總部。他到達后,開始不斷撥打電話,啟動恢复計划。

   在隨后的數小時內,大多數數据中心員工聚集到了總部。當時的情況很令人擔憂,因為有些員工直到第二天上午,都沒有向總部報告,或打電話進來。當員工被重新召集在一起時,這場災難帶來的心理影響就變得清清楚楚。有些人在哭叫,許多天內,很多人行為异常,有一個人完全消失了整整一個星期(當他回來時,受到了大家的歡迎,沒有人問他任何問題),其他人則把自己投入到工作中。火災難后的至少一個星期內,整個環境都非常平靜。談話被壓縮到了最少,大家用得最多的是耳語。很多人相互擁抱。管理層請來了一個行業心理學家小組,幫助員工將情緒從火災難和同事犧牲的种种狀態中數据恢复正常。

   災難恢复計划

   新的災難恢复計划的初始階段在火災難發生前的3個月開始實施。此外,在6個星期前,還進行了一場演練,因此每個人都對自己的角色記憶猶新。遺憾的是,該計划的副本保存在電子郵件文件中,而這些文件在火災難中丟失了。沒有人打印過該計划,包括該計划的作者。在數天后從磁帶中恢复電子郵件之前,系統管理員只能憑記憶進行數据恢复。恢复步驟由打往厂商、供應商、客戶和用戶的電話构成,整個過程都按預定義步驟的“人工腳本”進行。

   恢复計划中包含的所有應用都有服務水平協議,其中包括2小時的應用恢复點目標(RPO),這些都得到了滿足。沒有丟失45分鐘以上的任何電子事務處理,有數种應用根本什么也沒有丟失。因為進入該金融公司計算机系統的每個事務處理都記錄在紙上,最終沒有丟失事務處理數据。

   對于在這种規模的災難中的所有關鍵應用,計划中指定的數据恢复時間目標(RTO)為48小時。所有應用都有備份,并在火災難后48小時內恢复運行。

   應用快速恢复的一個主要原因是,數据被异步复制到該金融公司位于內布拉斯加州奧馬哈的恢复站點。在弗吉尼亞州備份站點工作的管理員挽救了所有關鍵數据,并使它們在奧馬哈恢复站點重新上線,管理員使用了网絡連接和撥號連接兩种上网方式。

   非關鍵應用的數据沒有得到复制。在恢复站點,從備份磁帶將這些數据恢复到了其他系統(有些是新系統,有些是改用的系統)。

   恢复

   第一批恢复的信息服務在火災難后大約24小時恢复在線。所有應用的恢复用了大約10天時間。恢复計划沒有預先确定恢复順序,信息服務按照特定用戶的即時需求進行恢复。發生衝突時,管理層就做出公斷,根据業務關鍵性确定优先順序。總体來說,用戶理解這种情況(需要恢复的服務太多,沒有足夠的管理員來恢复它們),并能夠容忍延遲。

   在最開始的几天,恢复全天候進行,直到第一批信息服務恢复運行為止。所有用戶請求都通過負責系統管理的主管匯集,特定要求用戶不要直接向管理員反映問題,除非管理員正在解決該用戶的問題。

   在恢复期間,系統管理員有決定其工作日程的完全自主權。如果他們覺得需要身体上或情緒上的休整,他們就可以休息。如果他們愿意從下午7點工作到第二天早上7點,或從早上7點工作到第二天早上7點,這也沒有什么不好。只要恢复工作進展合理,其他管理員沒有怨言,管理層和用戶都很滿意。

   從几個方面看,該金融公司從災難中恢复都是成功的。恢复計划的作用与預期一致。小組成員知道自己扮演的角色,并像計划中所列的那樣發揮自己的作用。該金融公司的備份与恢复、集群和數据复制軟件的執行都与預期完全一致。

   正如在這种規模的事件中可以預料的一樣,有些事情的進展并非一帆風順。該金融公司備份數据的編目本身沒有妥當備份。在進行了兩天時間的讀取磁帶以重建編目的工作后,一名系統管理員記起某個恢复系統上有一份編目,并找到和恢复了它。盡管有些延遲,但也節省了几天的編目重建時間。

   另一個問題是磁帶机的缺乏。利用适當的規划,常常可以對應用的備份窗口進行分段,以最大限度地減少必需的磁帶机數量。但是,在這种所有信息服務數据被毀的災難中,加快數据恢复進程的唯一方法就是使用更多的磁帶机同時恢复更多的服務。除非發生災難,硬件不會得到充分利用,盡管如此,要找到購買硬件的理由也很困難,但第一次災難就很可能促使這种購買。為了在以后的災難中加快恢复速度,該金融公司購買了一套帶有40個磁帶机的自動磁帶庫。

   該金融公司的許多條碼標簽經過磨損和撕扯后已經脫落或毀坏。這樣,許多備份磁帶集就不完整,無法得到恢复。管理員只得從更早的備份磁帶集中恢复系統。

   誰也沒有想到這場災難的影響范圍會有這么大。該金融公司的管理層一直以為,在災難發生后的較短時間內就能進入自己的辦公大樓。他們雖然預料到了長時間的電网故障和小規模的火災難,但對于引起數据中心長時間無法訪問的災難卻毫無防備。

   可喜的是,該金融公司的信息技術供應商确實樂于提供幫助,提供了現場和電話支持,增加了硬件、軟件和許可協議序列號。這似乎也是災難情況的一种普遍反應。

   災難過后

   這場火災難之后,該金融公司重新設計了數据中心的几种運行方式。或許,信息處理中最重大的改變是在備份方面。備份編目進行了遠程复制和本地拷貝。另外,對包含備份編目的磁帶做了特殊標記,以便識別。最重要的是,該金融公司購買了更多磁帶硬件,以提高恢复速度。

   由于火災難完全毀坏了原來的主數据中心,充當數据恢复站點的總部數据中心就成了永久性主數据中心。該金融公司不打算將主數据中心移到另一個地方。災難恢复計划已經從雙站點(主站點和恢复站點)計划變為三站點計划(用于運營和數据中心的主站點,以及位于遠處的組合恢复站點)。

   該金融公司利用這個机會,將其90台服務器上的應用整合到10台新的服務器中,用存儲网絡將這些服務器連接成一個大型磁盤框架。整合過的服務器做了操作系統升級,可以支持多個運營區域,而系統管理員正在利用這种功能,實施本地集群和故障切換。

   結果是,整個金融公司對系統管理員有了一种新的感激之情。管理人員對恢复工作的迅速反應和有效管理,使信息服務用戶對他們更加尊敬。

   吸取的教訓

   •應將備份編目保存在能避免災難和便于訪問的位置。具備恢复備份編目的能力可以減少數天的停机時間。

   •對于所有災難恢复任務,都應當指定主要和輔助的管理員。不要以為,在數据恢复過程中,需要關鍵人員時,就能找到他們中的每個人。

   •個人對高度緊張局面的反應是難以預料的。在可能的情況下,應當給予工作人員按自己的時間和方式進行數据恢复的余地。

   •恢复計划應當包含系統和應用的优先次序表,以便最小化信息服務恢复順序的爭論。

   •應當立即更換被毀坏的磁帶,并用其他方式恢复這些磁帶上的數据。

   •企業中的每個人,尤其是災難恢复團隊,應當在可能不會受到災難威脅的地方(例如辦公室和家中)保存有便于訪問的當前恢复計划的打印副本。 (E5)


首頁 聯系我們 技術文檔 网站地圖 English

聯系方式:021-52730141
在線QQ:363695622 E-mail:datarecovery@163.com