–供應(yīng)鏈管理
–IT容災(zāi)和恢復(fù)
–環(huán)境設(shè)施管理
–安全管理

業(yè)務(wù)連續(xù)性計劃的制定主要任務(wù)包括定義詳細的災(zāi)難恢復(fù)流程,明確所需的環(huán)境和資源,以及相應(yīng)的容災(zāi)團隊建設(shè)。業(yè)務(wù)連續(xù)性計劃是一套高級管理和規(guī)章流程,使一個組織在突發(fā)性事件面前能夠迅速作出反應(yīng),以確保關(guān)鍵業(yè)務(wù)功能可以持續(xù),而不造成業(yè)務(wù)中斷或業(yè)務(wù)流程本質(zhì)的改變。

我們常說的容災(zāi)系統(tǒng)就屬于IT容災(zāi)和恢復(fù)的技術(shù)范疇,這是一個完整的業(yè)務(wù)連續(xù)性大框架內(nèi)的一個極為重要的部分,甚至于可能是最有份量的部分。一般而言,建設(shè)災(zāi)備系統(tǒng),需要根據(jù)業(yè)務(wù)的要求和投入規(guī)模,確定業(yè)務(wù)連續(xù)性管理的范圍和程度,然后,針對IT容災(zāi)和恢復(fù)提出切實可行的方案。缺少任何一個環(huán)節(jié),整個災(zāi)備體系的建設(shè)都是不完整的。沒有IT容災(zāi)和恢復(fù)的技術(shù)實現(xiàn),整個災(zāi)備體系的規(guī)劃和計劃就是無源之水和空中樓閣,根本沒有根基。而沒有一個完善的業(yè)務(wù)連續(xù)性體系,則使得整個業(yè)務(wù)的災(zāi)難后的連續(xù)運行無法有效進行,整個組織無法形成聯(lián)動機制,做到危機響應(yīng)和危機應(yīng)急。

IT系統(tǒng)的災(zāi)備技術(shù)手段主要有哪些種?

答:IT系統(tǒng)的災(zāi)備技術(shù)手段根據(jù)IT系統(tǒng)的構(gòu)成有很大的差異,各類手段在適合系統(tǒng)的程度上主要取決于系統(tǒng)本身的組成和建設(shè)要求。比如,IT系統(tǒng)由多操作系統(tǒng)組成,并且災(zāi)備系統(tǒng)不能更改生產(chǎn)系統(tǒng)原有的格局,則可行的技術(shù)手段就極為嚴格,需要相當(dāng)慎重的選擇。災(zāi)備技術(shù)實現(xiàn)手段中最為重要的一個步驟就是通過網(wǎng)絡(luò)的連接,將本地端的數(shù)據(jù)復(fù)制一份到遠程保存,聽起來似乎不難,但在復(fù)雜的IT架構(gòu)下,要想成功實現(xiàn)確也并不容易。以往,受制于容災(zāi)技術(shù)實現(xiàn)手段的局限,主要有主機型和存儲型兩大類容災(zāi)方式,而今天,更是出現(xiàn)了具有更強能力的存儲網(wǎng)絡(luò)型的虛擬化容災(zāi)方式,使得容災(zāi)的技術(shù)手段開始豐富起來?,F(xiàn)在開始流行的CDP連續(xù)備份技術(shù)更是使容災(zāi)和備份兩大不同的體系開始走向融合。

主機型遠程容災(zāi) 簡單的說,就是通過安裝在服務(wù)器的數(shù)據(jù)復(fù)制軟件,或是應(yīng)用程序提供的數(shù)據(jù)復(fù)制/災(zāi)難恢復(fù)工具(如數(shù)據(jù)庫的相關(guān)工具),利用TCP/IP網(wǎng)絡(luò)連接遠端的容備服務(wù)器,實現(xiàn)異地數(shù)據(jù)復(fù)制。

主機型遠程容災(zāi)的優(yōu)點是在服務(wù)器較少的環(huán)境下,所需的成本較低,用戶不需更換太多現(xiàn)有的系統(tǒng)架構(gòu),也不用擔(dān)心后端存儲系統(tǒng)的兼容性問題,只需支付軟件的授權(quán)費和災(zāi)備端的硬件設(shè)備費用即可。但如果是服務(wù)器數(shù)量較多的環(huán)境,管理上的復(fù)雜程度就會增加,整體的投入成本成也會增加。它的另一個缺點是軟件安裝在應(yīng)用程序主機上,運行時會消耗主機的運行資源,如果硬件的等級不高,就可能給應(yīng)用程序帶來影響。

存儲系統(tǒng)型異地容災(zāi) 顧名思義是基于存儲系統(tǒng)(光纖磁盤陣列、NAS)的模式。通過存儲系統(tǒng)內(nèi)建的固件(firmware)或操作系統(tǒng),通過IP網(wǎng)絡(luò)或DWDM、光纖信道等傳輸接口連結(jié),將數(shù)據(jù)以同步或異步的方式復(fù)制到遠端。知名的存儲系統(tǒng)型遠程容災(zāi)方案有SRDF、TrueCopy、PPRC等。

與主機型遠程容災(zāi)相比,存儲系統(tǒng)型遠程容災(zāi)的優(yōu)點就是將數(shù)據(jù)與運行分開,對主機系統(tǒng)的運行資源影響比較小。另外,由于運行機制大多是利用鏡像(mirror)來復(fù)制數(shù)據(jù),并借助高速緩沖存儲器加速I/O存取,兩端的數(shù)據(jù)差異時間點比較小,加上存儲系統(tǒng)本身具備一定的容錯能力,具有一定的運行性能和可靠性

而存儲系統(tǒng)型遠程容災(zāi)的最大的限制就在于其昂貴的構(gòu)造成本。由于用戶必須在本地端和災(zāi)備端分別配置兩套相同的存儲系統(tǒng),不僅采購成本高,而且還要受制于單一的設(shè)備廠商,未來的擴展性勢必缺乏彈性。此外,光纖通道存儲系統(tǒng)如果要構(gòu)造遠程容災(zāi),必須在本地端和災(zāi)備端各安裝一臺FC-to-IP轉(zhuǎn)接器,硬件成本就會超過5萬美元,再加上網(wǎng)絡(luò)帶寬成本的話,整體費用投入定會令人咋舌。如果企業(yè)在安裝前沒有經(jīng)過謹慎評估的話,建置存儲系統(tǒng)型遠程容災(zāi)極有可能造成IT支出的黑洞,加重財務(wù)負擔(dān)。另外,存儲型容災(zāi)方式對于數(shù)據(jù)庫的一致性容災(zāi)存在很大的缺陷。在多點到一點的容災(zāi)架構(gòu)上存在不適用性。

虛擬化容災(zāi)方式 一種網(wǎng)絡(luò)存儲型遠程容災(zāi)架構(gòu),是在前端應(yīng)用服務(wù)器與后端存儲系統(tǒng)之間的存儲區(qū)域網(wǎng)絡(luò)(SAN),加入一層存儲網(wǎng)關(guān),這個網(wǎng)關(guān)和我們所了解的網(wǎng)絡(luò)網(wǎng)關(guān)不同,以虛擬存儲的代表技術(shù)美國飛康軟件公司的方案為例,它結(jié)合了IPStor專用管理器,前端連接服務(wù)器主機,后端連接存儲設(shè)備,它的角色就好像是存儲網(wǎng)絡(luò)中的交通警察,所有的I/O都交由它來控制管理。當(dāng)然,現(xiàn)在也出現(xiàn)了旁路(side-band)的控制方式,對于IO流量進行旁路監(jiān)控和分流,實現(xiàn)異地數(shù)據(jù)復(fù)制。

虛擬化遠程容災(zāi)的優(yōu)點就是功能強大。由于數(shù)據(jù)復(fù)制是通過存儲網(wǎng)關(guān)來執(zhí)行,應(yīng)用服務(wù)器只需數(shù)據(jù)庫執(zhí)行代理程序,相對于主機型遠程容災(zāi)來說,它的性能影響十分低。另外,通過存儲網(wǎng)關(guān)的虛擬化技術(shù),可以整合前端異構(gòu)平臺的服務(wù)器和后端不同品牌的存儲設(shè)備,本地端和災(zāi)備端的設(shè)備無需成對配置,用戶可以根據(jù)RTO和RPO,在遠端建立完整的熱備份中心,當(dāng)本地端發(fā)生災(zāi)難時立即接管業(yè)務(wù)運行;或是采取僅在災(zāi)備端安裝存儲設(shè)備的溫站配置,先保護數(shù)據(jù)的完整性和安全性,在本地端修復(fù)完成后再進行恢復(fù)。

除了上述的不占用主機運行資源,以及不具備存儲平臺局限性之外,成本更是存儲網(wǎng)絡(luò)型遠程容災(zāi)的最大優(yōu)勢。

首先,構(gòu)造時不需更換原有的IT基礎(chǔ)架構(gòu),只需在原本的存儲區(qū)域網(wǎng)絡(luò)中加入存儲網(wǎng)關(guān),本地端的主機和存儲設(shè)備可以是任何品牌,災(zāi)備端的主機和存儲設(shè)備也不需和本地端相同,用戶甚至可以在災(zāi)備端采用等級較低的存儲系統(tǒng)(如SATA磁盤陣列),根據(jù)統(tǒng)計,投資成本可節(jié)省多達30%左右,對于那些有構(gòu)造遠程容災(zāi)的熱切需要而IT預(yù)算又十分有限的客戶來說,虛擬化遠程容災(zāi)無疑佳的選其次,針對數(shù)據(jù)庫專用代理確保數(shù)據(jù)庫具有完整的容災(zāi)和啟動能力,無需擔(dān)憂無法啟動的現(xiàn)象發(fā)生。更為重要的是,在存儲數(shù)據(jù)上進行的多點快照等增值功能,能使得種數(shù)據(jù)的人為破壞均可以得到瞬間恢復(fù)的能力(也就是據(jù)的恢復(fù)能力,這在前兩種容災(zāi)方式中是一種恢復(fù)的盲點),是一種相當(dāng)完整的容災(zāi)體系,其涵蓋的災(zāi)難抗擊范圍遠超過前述的各類方式。另外,對于異地傳輸?shù)膸捳?,虛擬化容災(zāi)方式具有各類調(diào)優(yōu)方式,使得這種方式能夠最大限度適應(yīng)用戶現(xiàn)有的網(wǎng)絡(luò)環(huán)境。在這種容災(zāi)體系中,容災(zāi)的構(gòu)建已經(jīng)不再是難事,災(zāi)難也不再是極為可怕的事情。

CDP的技術(shù)也是虛擬化容災(zāi)方式所衍生出來的一種實時系統(tǒng)備份技術(shù),是一種容災(zāi)和備份的合成技術(shù)。

當(dāng)然,還有多種主流災(zāi)備技術(shù)的變形和衍生技術(shù),這里就不一一論述了。

容災(zāi)系統(tǒng)的業(yè)務(wù)連續(xù)指標(biāo)能夠提出零間斷嗎?

答:容災(zāi)系統(tǒng)的業(yè)務(wù)連續(xù)性是企業(yè)的關(guān)鍵業(yè)務(wù)在災(zāi)難發(fā)生時的應(yīng)對能力和恢復(fù)能力,即通過盡可能快速的、全面的企業(yè)業(yè)務(wù)恢復(fù)運作,將因災(zāi)難造成的損失降低到最小程度。由于在遠程網(wǎng)絡(luò)傳輸?shù)膶崟r性能力以及對現(xiàn)有生產(chǎn)系統(tǒng)不產(chǎn)生負面壓力的要求等多種綜合因素的制約,目前各類技術(shù)實現(xiàn)手段均是以一定的RPO和RTO作為災(zāi)難備份的指標(biāo)實現(xiàn),而零丟失或零間斷基本上都不具有技術(shù)基礎(chǔ)。由于實現(xiàn)零間斷采用全同步方式造成的高額的支出和系統(tǒng)運行損害使得零間斷或零丟失都不具有可行性。

為什么多點容災(zāi)相比單點容災(zāi)具有更為復(fù)雜的實現(xiàn)?

答:許多遠程復(fù)制技術(shù)是基于點到點的傳輸方式或者要求對等的系統(tǒng)(如主機或存儲是相同的類型),但是一個分布式的多點系統(tǒng)情況則不同,這類系統(tǒng)往往要求各節(jié)點集中容災(zāi)到一個災(zāi)備中心,實現(xiàn)多到一的復(fù)制,并且,有可能對等系統(tǒng)(如存儲設(shè)備)并不完全相同。更為重要的一點,在多點容災(zāi)系統(tǒng)中,各個異地傳輸?shù)木W(wǎng)絡(luò)條件也可能不盡相同,往往會出現(xiàn)某些節(jié)點低帶寬的傳輸特點,這樣就大大限制了能夠采用的容災(zāi)技術(shù)。面對多點容災(zāi)體系的架構(gòu),人們需要更加注重架構(gòu)的適應(yīng)性,選擇功能和結(jié)構(gòu)適合的技術(shù)實現(xiàn),也就是說,功能和結(jié)構(gòu)是首選考慮因素

災(zāi)備演練如何考慮?

答:災(zāi)備演練是驗證災(zāi)難發(fā)生時,業(yè)務(wù)系統(tǒng)能否有效聯(lián)動切換的極為重要的手段。沒有災(zāi)備的演練計劃和手段,往往無法預(yù)知災(zāi)難發(fā)生時生產(chǎn)中心和災(zāi)備中心的數(shù)據(jù)一致性,也無法預(yù)知災(zāi)備中心是否具有了業(yè)務(wù)接管的一切必要條件。以往,由于一些企業(yè)采用的容災(zāi)技術(shù)實現(xiàn)不具有災(zāi)備演練的技術(shù)手段,出現(xiàn)了一些企業(yè)在故障發(fā)生時,仍然無法啟動后援系統(tǒng)進行業(yè)務(wù)的接管的現(xiàn)象,這些企業(yè)不得不仍然采用傳統(tǒng)的備份恢復(fù)方式進行耗時的數(shù)據(jù)恢復(fù),不僅出現(xiàn)了大量的數(shù)據(jù)丟失而且,動輒數(shù)十小時的業(yè)務(wù)停頓,也使得災(zāi)備系統(tǒng)的設(shè)計者狼狽不堪,教訓(xùn)十分深刻。因此,選擇有效的災(zāi)備技術(shù)手段的同時,決不能忽略災(zāi)備演練的技術(shù)手段的提供,在具有多種技術(shù)手段的基礎(chǔ)上,制定災(zāi)備系統(tǒng)的演練和測試計劃。災(zāi)備的演練計劃有以下幾種方式:

A 計劃性測試/演練

災(zāi)難恢復(fù)計劃要求建立業(yè)務(wù)連續(xù)性管理團隊,不僅涉及IT部門,而且關(guān)聯(lián)眾多業(yè)務(wù)部門,為減少演練對于生產(chǎn)的影響,可以將恢復(fù)計劃細化到很小的單位或者模塊,逐個應(yīng)用進行接管驗證。

當(dāng)模塊都成功通過測試后,測試的范圍可以擴充到更多的模塊。

B 突發(fā)演練

在災(zāi)備系統(tǒng)全面完成并且制定了全面的恢復(fù)計劃后,可以在進行了一定備份的情況下安排突發(fā)性的測試。當(dāng)然,業(yè)務(wù)連續(xù)性管理小組需要確保業(yè)務(wù)不會因為突發(fā)性測試造成不可接受的損失和業(yè)務(wù)中斷。

演練對于提高團隊的恢復(fù)經(jīng)驗和協(xié)作能力以及確保災(zāi)難恢復(fù)計劃的可行性是至關(guān)重要的。所有的演練結(jié)果都要進行評估、記錄、并且生成到容災(zāi)流程里。

還有哪些要預(yù)先考慮的因素?

答:容災(zāi)體系需要現(xiàn)有的基礎(chǔ)設(shè)施狀況,如現(xiàn)有異地傳輸網(wǎng)絡(luò)的狀況、現(xiàn)有主機系統(tǒng)和存儲系統(tǒng)狀況、現(xiàn)有生產(chǎn)環(huán)境的變動能力等等,體現(xiàn)在考慮因素上就是以下幾點:

1.是否是低帶寬特征,如果是則需要考慮具有帶寬優(yōu)化的技術(shù)實現(xiàn)

2.是否是異構(gòu)系統(tǒng)?如果是則需要考慮異構(gòu)的災(zāi)備體系

3.成本。權(quán)衡和比較不同災(zāi)備實現(xiàn)的成本,這里會產(chǎn)生很大的差異。

4.災(zāi)備系統(tǒng)是否對于生產(chǎn)系統(tǒng)產(chǎn)生很大的變動?有時候,這往往是致命的。

5.災(zāi)難的防御范圍。除了人們已知的各類自然災(zāi)害、設(shè)備故障外,是否需要防范人為的數(shù)據(jù)篡改或丟失?如果是,所采用的技術(shù)就需要更為全面、功能覆蓋面更為廣泛。

6.工程實施過程。實施是否簡單、維護過程是否簡單往往決定了系統(tǒng)今后的維護和運營成本和對生產(chǎn)系統(tǒng)的影響。

。。。。。。

容災(zāi)建設(shè)的要素還有很多,全面考慮業(yè)務(wù)連續(xù)性體系的每一個方面,抓住最為重要的環(huán)節(jié),進行深入而細致的研究,就能夠使有限的資金發(fā)揮更大的能量,達到事半功倍的效果,這也是本文的目的所在。

分享到

cuihao

相關(guān)推薦