災(zāi)難恢復(fù)旨在減輕災(zāi)難對(duì)企業(yè)運(yùn)營(yíng)帶來(lái)的不良影響,而不管災(zāi)難發(fā)生的原因是什么。
范圍
災(zāi)難對(duì)企業(yè)運(yùn)營(yíng)影響的范圍可大可小,比如一個(gè)天文觀測(cè)站,觀測(cè)望遠(yuǎn)鏡的調(diào)焦系統(tǒng)出現(xiàn)故障在某種意義上是一種災(zāi)難。如果這個(gè)觀測(cè)站有兩臺(tái)或者更多的望遠(yuǎn)鏡,由于具有冗余功能,觀測(cè)工作仍能正常進(jìn)行。然而,如果觀測(cè)站僅有的一臺(tái)望遠(yuǎn)鏡或者調(diào)焦系統(tǒng)發(fā)生一定程度的故障,則該企業(yè)(天文觀測(cè)站)的觀測(cè)工作仍不能正常進(jìn)行。
持續(xù)時(shí)間
災(zāi)難對(duì)企業(yè)運(yùn)營(yíng)最明顯的影響是停機(jī)時(shí)間??指整個(gè)或局部企業(yè)不能正常運(yùn)營(yíng)的時(shí)間。故障時(shí)間(圖1)是指企業(yè)不能正常運(yùn)營(yíng)的開(kāi)始時(shí)間。T2是指企業(yè)從災(zāi)難中完全恢復(fù)的時(shí)間,停機(jī)時(shí)間是指T1和T2之間的時(shí)間間隔。
發(fā)生時(shí)間
一般來(lái)說(shuō),災(zāi)難造成的停機(jī)時(shí)間越短,企業(yè)的損失就越小。然而災(zāi)難的影響與災(zāi)難發(fā)生時(shí)間和災(zāi)難導(dǎo)致的停機(jī)時(shí)間有關(guān)。例如,在觀測(cè)站的例子中,如果望遠(yuǎn)鏡調(diào)焦系統(tǒng)發(fā)生故障的時(shí)間正好是彗星飛過(guò)地球的時(shí)間,則故障對(duì)觀測(cè)站的影響要比白天或宇宙相對(duì)平靜時(shí)發(fā)生故障的影響大得多。
災(zāi)難對(duì)信息服務(wù)的影響
災(zāi)難對(duì)企業(yè)信息服務(wù)的影響通常大于對(duì)企業(yè)運(yùn)營(yíng)其他方面的影響。舉例來(lái)說(shuō),如果記錄某些活動(dòng)的服務(wù)器及其在線存儲(chǔ)服務(wù)器同時(shí)在T1(圖2)時(shí)間遭到災(zāi)難性破壞,災(zāi)難影響將從最近的日志備份時(shí)間T0(圖2)持續(xù)到系統(tǒng)完全恢復(fù)時(shí)間T2(圖2)。T0和T1之間記錄的活動(dòng)與在線存儲(chǔ)一旦丟失,T1和T2之間的活動(dòng)就未被記錄,因?yàn)槿罩鞠到y(tǒng)無(wú)法正常運(yùn)行,生成日志。
災(zāi)難造成的影響還與企業(yè)所記錄活動(dòng)的程度密切相關(guān)。如果日志只是概念測(cè)試的部分記錄,災(zāi)難影響可能無(wú)關(guān)緊要,因?yàn)闇y(cè)試還可以重新運(yùn)行。然而,如果活動(dòng)日志用來(lái)生成規(guī)范企業(yè)運(yùn)作的報(bào)表或者用來(lái)處理客戶(hù)訂單,那么,災(zāi)難造成的損失將十分巨大。
準(zhǔn)備工作和恢復(fù)計(jì)劃
災(zāi)難恢復(fù)計(jì)劃和準(zhǔn)備通常遵循以下兩種方法:
盡管筆者認(rèn)為總體上第一種方法更可取,但本部分我們還是列舉了這兩種方法的優(yōu)劣勢(shì)。
全面災(zāi)難恢復(fù)計(jì)劃
有些企業(yè)設(shè)計(jì)的全面災(zāi)難預(yù)防和恢復(fù)計(jì)劃可以對(duì)任何可預(yù)見(jiàn)的災(zāi)難事件進(jìn)行全部或部分的調(diào)用。這些計(jì)劃與其說(shuō)是災(zāi)難事件驅(qū)動(dòng),倒不如說(shuō)是不得已而啟動(dòng),它們一般根據(jù)能夠預(yù)見(jiàn)的最壞災(zāi)難事件而設(shè)計(jì)。執(zhí)行全面災(zāi)難恢復(fù)計(jì)劃,必須采取的第一步是評(píng)估災(zāi)難影響,從而確定應(yīng)當(dāng)調(diào)用哪些團(tuán)隊(duì)和哪些資源。正因?yàn)槿绱?,?zāi)難發(fā)生和開(kāi)始恢復(fù)之間,通常會(huì)有一段延時(shí)。
特定災(zāi)難恢復(fù)計(jì)劃
與上述辦法相反,有些企業(yè)制定了幾套特定災(zāi)難恢復(fù)計(jì)劃。這些計(jì)劃考慮了最可能發(fā)生的災(zāi)難和災(zāi)難的最大潛在影響。這些企業(yè)列出了可能發(fā)生影響的不同災(zāi)難,同時(shí)考慮了這種災(zāi)難對(duì)整個(gè)行業(yè)、地區(qū)、產(chǎn)品、服務(wù)和供應(yīng)鏈的影響。他們會(huì)采用歷史信息和最好的假設(shè)方法對(duì)每一種災(zāi)難進(jìn)行量化分析,并計(jì)劃出最壞的和最有可能的影響。通過(guò)最詳細(xì)的計(jì)劃,他們會(huì)高度重視最有可能發(fā)生的災(zāi)難和具有最大潛在影響的災(zāi)難。
例如,在加利福尼亞和日本,發(fā)生地震的機(jī)率很高,所以建筑都設(shè)計(jì)成抗震建筑。而在新英格蘭和倫敦,地震發(fā)生的機(jī)率很小,因此人們?cè)诜勒鹕贤度氲木洼^?。ǖ荒芎雎园l(fā)生地震的可能)。另一個(gè)例子就是以上幾個(gè)地區(qū)幾乎都沒(méi)有防御龍卷風(fēng)侵襲的措施。因?yàn)辇埦盹L(fēng)在上述地區(qū)十分罕見(jiàn)。有些災(zāi)難獨(dú)立于自然環(huán)境因素,絕大多數(shù)企業(yè)都具有緊急恢復(fù)計(jì)劃,以應(yīng)對(duì)電源中斷、火災(zāi)、洪水、網(wǎng)絡(luò)故障和其他不可預(yù)知的災(zāi)難。
執(zhí)行特定災(zāi)難恢復(fù)計(jì)劃,應(yīng)當(dāng)遵循特定的步驟和流程。只要災(zāi)難的性質(zhì)清楚,就不需要在恢復(fù)初期做太多決策。多數(shù)情況下,初始恢復(fù)步驟可以自動(dòng)完成。但特定災(zāi)難恢復(fù)計(jì)劃的主要缺點(diǎn)是不能預(yù)料災(zāi)難,比如企業(yè)有可能采用電源中斷應(yīng)急方案來(lái)進(jìn)行火山爆發(fā)災(zāi)難恢復(fù)。
混合恢復(fù)計(jì)劃
實(shí)際上,大多數(shù)企業(yè)采用上述兩種偏激方法的組合方案。即制定一些針對(duì)常見(jiàn)災(zāi)難(如斷電、暴風(fēng)雪等)的特定計(jì)劃,同時(shí)特定全面恢復(fù)計(jì)劃,應(yīng)對(duì)其他所有災(zāi)難。此外,也有一些企業(yè)擁有多個(gè)全面恢復(fù)計(jì)劃,以應(yīng)對(duì)不同影響類(lèi)型的災(zāi)難(例如一個(gè)計(jì)劃應(yīng)對(duì)某棟建筑被毀,另一個(gè)計(jì)劃應(yīng)對(duì)計(jì)算機(jī)系統(tǒng)大面積故障)。
企業(yè)通常傾向于采用能滿(mǎn)足自身要求的恢復(fù)策略。根據(jù)筆者的經(jīng)驗(yàn),最佳的方案是一定要有一個(gè)可以應(yīng)對(duì)各種災(zāi)難事件的全面恢復(fù)方案。隨著時(shí)間的推移,不斷檢驗(yàn)和修改計(jì)劃,加快初始決策速度,從而克服全面恢復(fù)方案的這一主要缺點(diǎn)。
事實(shí)證明,哪怕是最好的恢復(fù)計(jì)劃,無(wú)論是全面災(zāi)難恢復(fù)計(jì)劃還是特定災(zāi)難恢復(fù)計(jì)劃都可能不完整。本文重點(diǎn)探討可預(yù)知災(zāi)難的規(guī)劃和準(zhǔn)備。然而,如前面所述,有些意想不到的災(zāi)難會(huì)隨時(shí)發(fā)生,恢復(fù)計(jì)劃必須隨機(jī)應(yīng)變。
測(cè)試災(zāi)難恢復(fù)計(jì)劃
不管是為了讓審計(jì)人員滿(mǎn)足、取悅管理人員、符合法規(guī)要求,還是真的為了企業(yè)擁有彈性,災(zāi)難恢復(fù)計(jì)劃的編寫(xiě)如果沒(méi)有經(jīng)過(guò)完整、定期的測(cè)試,那簡(jiǎn)直就是浪費(fèi)時(shí)間?;謴?fù)計(jì)劃應(yīng)當(dāng)每年至少測(cè)試一次,并在計(jì)劃本身或應(yīng)用環(huán)境發(fā)生重大變化之后再測(cè)試一次。對(duì)于快速變化的彈性企業(yè),其災(zāi)難恢復(fù)計(jì)劃應(yīng)當(dāng)每三個(gè)月進(jìn)行一次完整的測(cè)試。
測(cè)試的目地不是檢驗(yàn)恢復(fù)計(jì)劃是否通過(guò)。如果每次測(cè)試都完全成功,那么這種測(cè)試就毫無(wú)意義。最好的測(cè)試應(yīng)會(huì)發(fā)現(xiàn)哪些部分不能正常運(yùn)行,因?yàn)樵跍y(cè)試中發(fā)現(xiàn)問(wèn)題并加以改正的成本,要遠(yuǎn)遠(yuǎn)低于在真正的災(zāi)難恢復(fù)過(guò)程中發(fā)現(xiàn)問(wèn)題并解決問(wèn)題的成本。
定期測(cè)試是災(zāi)難恢復(fù)計(jì)劃保持生命力的關(guān)鍵。盡管每一次測(cè)試都被視為一個(gè)獨(dú)立的項(xiàng)目,有始有終,但測(cè)試本身是一個(gè)永無(wú)終結(jié)的過(guò)程。每一次測(cè)試都使企業(yè)有機(jī)會(huì)了解、提高自身的彈性。將討論災(zāi)難恢復(fù)測(cè)試的準(zhǔn)備、執(zhí)行和追蹤,以最大限度地了解和提高企業(yè)彈性。
四種類(lèi)型的測(cè)試
災(zāi)難恢復(fù)測(cè)試的分類(lèi)或演練方法有很多,下面重點(diǎn)討論災(zāi)難恢復(fù)測(cè)試的四種基本類(lèi)型:
在現(xiàn)實(shí)測(cè)試中,這四種類(lèi)型可以組合使用,恢復(fù)團(tuán)隊(duì)成員要到測(cè)試開(kāi)始前的最后一分鐘才知道測(cè)試的真正日期和時(shí)間。例如,在日常防火演習(xí)結(jié)束后,大部分員工可以返回工作崗位,但此時(shí)可能開(kāi)始一次呼叫測(cè)試,要通知恢復(fù)團(tuán)隊(duì)模擬災(zāi)難已經(jīng)宣告,一次實(shí)際的災(zāi)難恢復(fù)測(cè)試將馬上開(kāi)始。依據(jù)恢復(fù)計(jì)劃,幾個(gè)團(tuán)隊(duì)要轉(zhuǎn)移到災(zāi)難恢復(fù)站點(diǎn),執(zhí)行企業(yè)恢復(fù)任務(wù)。測(cè)試包括恢復(fù)已保存的介質(zhì)、恢復(fù)正常網(wǎng)絡(luò)、重新路由電話線以及讓系統(tǒng)上線等。一些實(shí)際的業(yè)務(wù)和功能被轉(zhuǎn)移到恢復(fù)站點(diǎn),而其他業(yè)務(wù)和功能的測(cè)試則采用模擬方式。
準(zhǔn)備恢復(fù)測(cè)試
恢復(fù)測(cè)試應(yīng)當(dāng)由協(xié)調(diào)者領(lǐng)導(dǎo)。協(xié)調(diào)者負(fù)責(zé)編寫(xiě)測(cè)試場(chǎng)景,確保企業(yè)作好了執(zhí)行、調(diào)整模擬恢復(fù)步驟的準(zhǔn)備,通常還應(yīng)當(dāng)保證參與者專(zhuān)注于恢復(fù)測(cè)試。
災(zāi)難測(cè)試場(chǎng)景編寫(xiě)好之后,企業(yè)應(yīng)當(dāng)檢查測(cè)試場(chǎng)景的合理性、可行性,清楚而有意義。在某個(gè)測(cè)試場(chǎng)景被批準(zhǔn)采用,角色和職責(zé)也確定好了之后,應(yīng)當(dāng)舉行測(cè)試前會(huì)議,以協(xié)調(diào)安排測(cè)試時(shí)間,設(shè)定期望并做好后勤安排。全天和幾天的恢復(fù)測(cè)試通常需要在幾個(gè)月時(shí)間內(nèi)召開(kāi)數(shù)十次甚至更多次會(huì)議,來(lái)進(jìn)行各種準(zhǔn)備和協(xié)調(diào)。
最好的恢復(fù)測(cè)試應(yīng)當(dāng)是有限制的災(zāi)難場(chǎng)景,特別是新組建的恢復(fù)團(tuán)隊(duì)。有限制的災(zāi)難場(chǎng)景能讓參與者專(zhuān)注于易處理的可恢復(fù)問(wèn)題,而不是用最糟糕的情況挫敗他們,這只會(huì)使測(cè)試人員不知所措,錯(cuò)誤百出。隨著企業(yè)測(cè)試計(jì)劃的日趨成熟,可能引入更復(fù)雜和更有挑戰(zhàn)性的測(cè)試場(chǎng)景。例如,宣布重要恢復(fù)團(tuán)隊(duì)成員不能到位,必要備份磁帶丟失,或者通往恢復(fù)站點(diǎn)的道路被封鎖等。意外的復(fù)雜場(chǎng)景用來(lái)提醒恢復(fù)團(tuán)隊(duì)成員任何事情都有可能發(fā)生,有助于參與者保持積極參與解決問(wèn)題的狀態(tài)。
恢復(fù)測(cè)試計(jì)劃需要考慮的事項(xiàng)
一方面,災(zāi)難恢復(fù)測(cè)試場(chǎng)景應(yīng)當(dāng)盡可能真實(shí);另一方面,從實(shí)踐的角度看,企業(yè)進(jìn)行災(zāi)難恢復(fù)計(jì)劃測(cè)試時(shí),通常沒(méi)有必要中斷其正常功能。進(jìn)行恢復(fù)測(cè)試規(guī)劃時(shí)考慮企業(yè)運(yùn)營(yíng)的某些方面尤為重要,這包括:
執(zhí)行恢復(fù)測(cè)試
恢復(fù)測(cè)試一開(kāi)始,應(yīng)當(dāng)舉行一次所有參與人員都參與的介紹會(huì)議。介紹會(huì)議旨在傳達(dá)測(cè)試的目的意義,并感謝團(tuán)隊(duì)的參與。盡管恢復(fù)測(cè)試是非常嚴(yán)肅的事情,但保持“輕松”的心情通常很有必要,它可以減輕壓力,并有助于恢復(fù)人員區(qū)分測(cè)試和真正的災(zāi)難。測(cè)試不需要太正式,比如說(shuō),不要求統(tǒng)一著裝。測(cè)試過(guò)程應(yīng)當(dāng)提供一些食物和飲料,特別是延時(shí)測(cè)試。在測(cè)試進(jìn)度允許的范圍內(nèi),企業(yè)一般會(huì)鼓勵(lì)工作人員微調(diào)測(cè)試場(chǎng)景和恢復(fù)工作。
當(dāng)恢復(fù)團(tuán)隊(duì)測(cè)試他們的部分恢復(fù)時(shí),協(xié)調(diào)者應(yīng)當(dāng)做一份詳細(xì)記錄,內(nèi)容包括測(cè)試部分、測(cè)試時(shí)間、測(cè)試持續(xù)時(shí)間、正常運(yùn)行的部分,更重要的是要記下不能正常運(yùn)行的部分。測(cè)試指揮部應(yīng)當(dāng)設(shè)在會(huì)議室或其他適當(dāng)?shù)牡胤健;謴?fù)團(tuán)隊(duì)?wèi)?yīng)當(dāng)?shù)街笓]部匯報(bào)工作結(jié)果,領(lǐng)取進(jìn)展報(bào)告,請(qǐng)求援助。
恢復(fù)測(cè)試中遇到問(wèn)題時(shí)應(yīng)當(dāng)做好記錄,但測(cè)試通常應(yīng)當(dāng)繼續(xù)進(jìn)行,這樣才能盡可能多地從測(cè)試中發(fā)現(xiàn)恢復(fù)計(jì)劃的缺陷。例如,應(yīng)用程序恢復(fù)團(tuán)隊(duì)丟失了一組必需的數(shù)據(jù),這一事故應(yīng)當(dāng)記錄下來(lái),然后從實(shí)際應(yīng)用中找回這組數(shù)據(jù)的副本,以便繼續(xù)進(jìn)行測(cè)試。然而,關(guān)鍵的是,在這一問(wèn)題沒(méi)有找到根源并排除時(shí),不能簡(jiǎn)單地一筆帶過(guò)。
恢復(fù)測(cè)試之后
災(zāi)難恢復(fù)測(cè)試結(jié)束后,組織者應(yīng)感謝所有恢復(fù)團(tuán)隊(duì)成員的參與,并鼓勵(lì)他們就恢復(fù)測(cè)試的成功或不足之處提出反饋意見(jiàn)。測(cè)試中遇到的問(wèn)題應(yīng)逐一記錄,并及進(jìn)安排徹底解決。測(cè)試結(jié)束后的短期內(nèi),協(xié)調(diào)者應(yīng)公布測(cè)試報(bào)告,測(cè)試報(bào)告應(yīng)記錄遇到的所有問(wèn)題,并推薦解決措施,具體包括問(wèn)題解決的具體負(fù)責(zé)人或組織,以及問(wèn)題解決的具體時(shí)間。
從災(zāi)難恢復(fù)或測(cè)試過(guò)程中吸取的經(jīng)驗(yàn)和教訓(xùn),要應(yīng)用到恢復(fù)計(jì)劃和下一次測(cè)試中。通過(guò)這種方式,企業(yè)的彈性才能日趨成熟,災(zāi)難恢復(fù)計(jì)劃才能保持適應(yīng)性。最重要的是,當(dāng)與某一次恢復(fù)計(jì)劃測(cè)試相關(guān)的所有措施都完成時(shí),新一輪災(zāi)難恢復(fù)測(cè)試又應(yīng)當(dāng)開(kāi)始。因此,恢復(fù)計(jì)劃的測(cè)試越頻繁,真正需要災(zāi)難恢復(fù)時(shí)它就越可靠。
圖1 停機(jī)時(shí)間
圖2 停機(jī)時(shí)間和數(shù)據(jù)丟失