Share78只是建立容災系統(tǒng)的一種評審標準,在設計容災系統(tǒng)時,還需要提供更加具體的設計指標。建立容災系統(tǒng)的最終目的,是為了在災難發(fā)生后能夠以最快的速度恢復數(shù)據(jù)服務,所以,容災中心的設計指標主要與容災系統(tǒng)的數(shù)據(jù)恢復能力有關。最常見的設計指標有:RTO 和RPO。
各種容災解決方案的RTO有較大差別,基于光通道技術的同步數(shù)據(jù)復制,配合異地備用的業(yè)務系統(tǒng)和跨業(yè)務中心與備份中心的高可用管理,這種容災解決方案具有最小的RTO。容災系統(tǒng)為獲得最小的RTO,同樣需要投入大量資金。
RPO反映恢復數(shù)據(jù)完整性的指標,在同步數(shù)據(jù)復制方式下,RPO等于數(shù)據(jù)傳輸時延的時間,在異步數(shù)據(jù)復制方式下,RPO基本為異步傳輸數(shù)據(jù)排隊的時間。實際應用中,考慮到數(shù)據(jù)傳輸因素,業(yè)務數(shù)據(jù)庫與容災備份數(shù)據(jù)庫的一致性(SCN)是不相同的,RPO表示業(yè)務數(shù)據(jù)庫與容災備份數(shù)據(jù)庫的SCN的時間差。發(fā)生災難后,啟動容災系統(tǒng)完成數(shù)據(jù)恢復,RPO就是新恢復業(yè)務系統(tǒng)的數(shù)據(jù)損失量。
不同的容災解決方案的RTO和RPO是不相同的,下面列舉幾種容災解決方案的RTO和RPO的對比:
設計容災系統(tǒng)不能只看RTO和RPO,對于不同的業(yè)務系統(tǒng)和用戶特殊的要求,其他一些指標有可能成為選擇容災解決方案的主要因素。譬如,某些地區(qū)為了防范一些特定自然災害的風險,要求容災備份中心與業(yè)務中心保持足夠的距離,在這種情況下,容災備份中心與業(yè)務中心的距離要求,成為容災系統(tǒng)的重要指標。
大部分業(yè)務系統(tǒng)都是數(shù)據(jù)庫應用結構,業(yè)務系統(tǒng)容災實際上就是數(shù)據(jù)庫容災,實現(xiàn)數(shù)據(jù)庫容災的難度是始終要保證數(shù)據(jù)庫的一致性,為了保證容災備份數(shù)據(jù)庫隨時能夠打開運行,必須對容災備份數(shù)據(jù)庫進行可用性檢驗。由于大部分容災技術都是采用邏輯卷數(shù)據(jù)復制方式,難以保證容災備份數(shù)據(jù)庫在所有檢驗時間點的一致性,有可能出現(xiàn)單次檢驗失敗的情況,不得不進行重復檢驗。把容災備份數(shù)據(jù)庫的檢驗成功率作為容災系統(tǒng)的設計指標是必要的。
通信網(wǎng)絡是容災系統(tǒng)的組成部分,通信線路的質(zhì)量也是容災系統(tǒng)的性能指標之一。其中包括網(wǎng)絡的數(shù)據(jù)傳輸帶寬、網(wǎng)絡傳輸通道的冗余和網(wǎng)絡服務商的服務水平(網(wǎng)絡年中斷率)。如果,容災系統(tǒng)使用的通信網(wǎng)絡是確定的,為了比較不同容災解決方案,可以用單位存儲容量的數(shù)據(jù)庫在同一通信網(wǎng)絡上,數(shù)據(jù)完全恢復所用時間作為一項設計指標。
如果要求容災系統(tǒng)具有防范各種災難的能力,特別是具備抵御人為破壞的能力,需要把容災系統(tǒng)的數(shù)據(jù)備份作為一個設計指標。這是因為所有通過網(wǎng)絡對業(yè)務中心的人為破壞和管理人員的誤操作,同樣影響到容災備份中心。只有采用離線數(shù)據(jù)備份的方法,才能夠防范人為的災難。
從經(jīng)濟角度考慮,最佳的容災解決方案不一定是性能最好的容災解決方案,容災系統(tǒng)的總體投入TCO和投資回報ROI,對于許多用戶來說是十分重要的設計指標。TCO包括建立系統(tǒng)、維護系統(tǒng)和擴充系統(tǒng)的總投入,由于容災系統(tǒng)的啟用概率很低,新技術的發(fā)展和新產(chǎn)品的性能價格比的提高,必定造成容災設備的貶值。所以,對于容災系統(tǒng)TCO越高,ROI越低。
由于業(yè)務不同模式的IT系統(tǒng)在升級過程中,會采用新技術和新產(chǎn)品,業(yè)務系統(tǒng)任何變動都會引起容災系統(tǒng)相應的變化,勢必加大系統(tǒng)升級的投入。要想把這種變化的影響降低到最小,容災系統(tǒng)的靈活性和兼容性也應該是十分重要的指標。
綜上所述,進行容災系統(tǒng)設計時,必須根據(jù)企事業(yè)的業(yè)務系統(tǒng)的使用情況,綜合考慮地理環(huán)境、網(wǎng)絡條件、投資規(guī)模、業(yè)務系統(tǒng)長遠發(fā)展規(guī)劃等各種因素,制定合理的可行的容災系統(tǒng)設計指標。
容災技術的分類
應用于容災工程的技術統(tǒng)稱為容災技術。對于各單位不同的IT業(yè)務系統(tǒng),應該選擇不同的容災技術。每種容災技術都有自身的技術特點和某些應用局限性。通過對容災技術的分類,可以幫助用戶在容災工程設計中選擇最適用的容災解決方案。
在討論容災技術分類前,先了解一些有關容災的技術術語。
同步復制與異步復制:同步復制是指向業(yè)務系統(tǒng)存儲數(shù)據(jù)和向備份系統(tǒng)存儲數(shù)據(jù)同時進行,只有在兩地數(shù)據(jù)存儲操作完成后,才能夠進行下一個數(shù)據(jù)存儲操作,因此,同步復制的IO操作時間以最長的IO用時為衡量尺度。異步復制是指對業(yè)務系統(tǒng)的數(shù)據(jù)存儲操作獨立進行,對備份系統(tǒng)的數(shù)據(jù)存儲操按照排隊方式進行,業(yè)務系統(tǒng)的IO操作不受異地備份系統(tǒng)的IO操作影響。為了保證數(shù)據(jù)傳輸排隊的次序,異步復制需要一些特殊技術的支持。
源數(shù)據(jù)與目標數(shù)據(jù):業(yè)務系統(tǒng)的數(shù)據(jù)是源數(shù)據(jù),備份中心的數(shù)據(jù)是目標數(shù)據(jù)。在雙工模式下,A業(yè)務系統(tǒng)可以存儲B業(yè)務系統(tǒng)的目標數(shù)據(jù),反之亦然。在多向復制模式下,源數(shù)據(jù)可以有多個目標數(shù)據(jù)作為備份。在集中模式下,容災備份中心可以存儲多個業(yè)務系統(tǒng)復制來的目標數(shù)據(jù)。
冷容災中心與熱容災中心:冷容災中心的目標數(shù)據(jù)只能在數(shù)據(jù)恢復時使用。熱容災中心的目標數(shù)據(jù)在一定條件下可以離線使用。對于數(shù)據(jù)庫來說,熱容災中心的數(shù)據(jù)庫時刻處于打開狀態(tài)。
容災技術的分類方法有很多種,按照數(shù)據(jù)復制的發(fā)起端來進行分類,能夠比較清晰地了解各種容災技術的特點。
技術最簡單和投資最少的容災解決方案是基于數(shù)據(jù)備份與恢復技術的解決方案。只要對業(yè)務系統(tǒng)每日備份的數(shù)據(jù)制作一個相同的拷貝,通過交通工具運輸?shù)饺轂膫浞葜行谋4嫫饋恚@樣不需要購買大量的設備和軟件,只需要對備份數(shù)據(jù)的介質(zhì)進行有效管理。如果在容災中心建立備用業(yè)務系統(tǒng),當業(yè)務系統(tǒng)遇到災難破壞后,備用中心能夠很快投入工作,不難想像,這種容災技術的RPO是最差的,但對特定的業(yè)務系統(tǒng)不失為一個高性價比的容災解決方案。
國內(nèi)常見的容災解決方案,都是采用在相同存儲子系統(tǒng)之間進行數(shù)據(jù)復制的方式,一般,使用安裝在存儲子系統(tǒng)上的數(shù)據(jù)復制軟件,保持業(yè)務系統(tǒng)的存儲數(shù)據(jù)邏輯卷與備份系統(tǒng)存儲數(shù)據(jù)邏輯卷的一致性;存儲子系統(tǒng)的容災技術可以選擇同步復制或者異步復制方式;由于是邏輯卷級的數(shù)據(jù)復制,存儲業(yè)務系統(tǒng)源數(shù)據(jù)的存儲子系統(tǒng)也可以存儲其他業(yè)務系統(tǒng)的目標數(shù)據(jù);按照邏輯卷復制的要求,存儲目標數(shù)據(jù)的邏輯卷是不能被業(yè)務系統(tǒng)直接使用的,所以,存儲子系統(tǒng)的容災技術屬于冷容災方式。
另一種基于主機卷管理軟件的容災技術與存儲子系統(tǒng)的類型無關,與業(yè)務系統(tǒng)的服務器平臺有關。主機卷管理軟件的容災技術同樣可以選擇同步或者異步復制方式;通過卷管理軟件的遠程數(shù)據(jù)復制的擴展功能,可以把業(yè)務系統(tǒng)的源數(shù)據(jù)復制到多達31個備份中心的存儲系統(tǒng)的指定邏輯卷;存儲目標數(shù)據(jù)的邏輯卷不能被業(yè)務系統(tǒng)所使用,卷管理軟件的容災技術屬于冷容災方式。
虛擬存儲技術的發(fā)展,加強了基于網(wǎng)絡的存儲管理,由虛擬存儲系統(tǒng)的管理平臺負責存儲池內(nèi)所有數(shù)據(jù)邏輯卷的管理,安裝在虛擬存儲管理平臺上的數(shù)據(jù)復制軟件,組成虛擬存儲系統(tǒng)虛擬邏輯卷之間復制的容災解決方案。虛擬存儲容災技術也是基于邏輯卷數(shù)據(jù)復制方式,特點與以上兩種容災技術相似。虛擬存儲容災解決方案與存儲子系統(tǒng)的類型和業(yè)務系統(tǒng)服務器的平臺無關,具有較好的靈活性,適合作為多業(yè)務系統(tǒng)數(shù)據(jù)中心的容災解決方案。
部分數(shù)據(jù)庫軟件廠商和數(shù)據(jù)庫的優(yōu)化軟件供應商提供了基于數(shù)據(jù)庫的容災技術,基于數(shù)據(jù)庫的容災技術與上述三種基于存儲邏輯卷的數(shù)據(jù)復制容災技術有較大的差別,基于數(shù)據(jù)庫的容災技術傳輸?shù)氖荢QL指令或者重作日志文件,在新數(shù)據(jù)沒有被業(yè)務系統(tǒng)寫入存儲子系統(tǒng)前,就被指定發(fā)送到異地備份中心的數(shù)據(jù)庫進行相關處理。數(shù)據(jù)庫容災技術采用異步傳輸方式,通過IP網(wǎng)絡傳輸,支持一個業(yè)務中心向多個備份中心的數(shù)據(jù)庫進行復制的要求,或者多個業(yè)務中心向一個備份中心復制的要求。在容災過程中,業(yè)務中心和備份中心的數(shù)據(jù)庫都處于打開狀態(tài),所以,數(shù)據(jù)庫容災技術屬于熱容災方式。數(shù)據(jù)庫容災技術與存儲子系統(tǒng)的類型、業(yè)務系統(tǒng)服務器的平臺無關,與數(shù)據(jù)庫的版本有一定關系,數(shù)據(jù)庫容災解決方案具有較好的使用靈活性。數(shù)據(jù)庫容災技術只能作為數(shù)據(jù)庫應用的容災解決方案,如果需要其他非結構數(shù)據(jù)的容災,還需要其他容災技術作為補充。
還有一種介于邏輯卷時間復制和數(shù)據(jù)庫數(shù)據(jù)復制的軟件容災技術,通過提取操作系統(tǒng)的IO指令形成日志文件,傳輸?shù)饺轂闹行牡膽孟到y(tǒng),可以使用前滾的方式在容災中心重建任意一個時間點的業(yè)務數(shù)據(jù)或者數(shù)據(jù)庫,這種容災技術為災難后數(shù)據(jù)恢復提供了多種選擇。
在選擇容災技術時,需要考慮業(yè)務系統(tǒng)的類型,是單業(yè)務系統(tǒng)還是多業(yè)務系統(tǒng)?是數(shù)據(jù)庫應用還是非結構化數(shù)據(jù)?是數(shù)據(jù)容災還是業(yè)務系統(tǒng)容災?用戶可以根據(jù)要求,選擇一種主要的容災技術作為容災解決方案的基礎,輔之其它容災技術滿足特定的要求。
制定容災計劃的若干問題
俗話說:“預則立,不預則廢?!比轂挠媱澥侨轂墓こ讨凶钪饕慕M成部分。除了前面介紹的業(yè)務系統(tǒng)風險分析、制定容災系統(tǒng)性能指標和選擇容災解決方案是容災計劃的組成部分,還要全面考慮在災難發(fā)生后,所有可能出現(xiàn)的情況以及相應的對策。為此,設想一個已經(jīng)建立了數(shù)據(jù)容災的業(yè)務系統(tǒng),在發(fā)生災難后可能出現(xiàn)的情況和相應的對策:
如果在容災備份中心同時建立了備用業(yè)務系統(tǒng),以上次序需求稍有調(diào)整:
現(xiàn)代通信技術和遠程網(wǎng)絡監(jiān)測,可以幫助異地的容災備份中心管理員和決策者迅速了解業(yè)務系統(tǒng)的工作狀況,在最短時間內(nèi)啟動容災計劃。對于建立了備用業(yè)務系統(tǒng)的容災系統(tǒng),可以通過跨地區(qū)的高可用管理軟件實現(xiàn)業(yè)務的自動切換,需要小心的是,軟件對災難的判斷能力是有限的,將業(yè)務從一個地方切換到另一個地方如此重大的決定,還需要系統(tǒng)管理人員和決策者作最終控制,系統(tǒng)管理人員和決策者發(fā)現(xiàn)問題、檢查故障、判斷災難和決定啟動容災計劃都需要時間,只有按照嚴格的操作程序執(zhí)行計劃,才能夠提高容災系統(tǒng)的反應速度。對容災系統(tǒng)管理人員和決策者的使用培訓和模擬演練,也是容災計劃的組成部分之一。
容災備份中心管理隊伍應該組織嚴密、分工詳細和保持聯(lián)系,要在最短時間內(nèi),重建一套業(yè)務IT系統(tǒng),需要設備供應商,軟件開發(fā)商和系統(tǒng)集成商之間的緊密配合,必須把有關服務商加入到容災計劃中來,承擔一定責任和任務。除了設立專門的技術服務人員外,還要有專門的財務人員與保險公司核定損失,專門的公共關系人員平息業(yè)務系統(tǒng)最終用戶的抱怨。
通信線路順暢是數(shù)據(jù)恢復的保證,備有冗余的通信線路無疑能夠保障計劃內(nèi)數(shù)據(jù)恢復的時間。在通信線路完全破壞的極端情況下,還要準備利用數(shù)據(jù)備份介質(zhì)來恢復數(shù)據(jù)。隨便提一句,在備份數(shù)據(jù)時,最好同時備份系統(tǒng)和業(yè)務應用程序及其相關網(wǎng)絡配置(現(xiàn)在已經(jīng)有這種軟件),有利于整個業(yè)務中心的快速恢復。
把執(zhí)行容災計劃的過程制作成流程圖,可以幫助我們更加詳細地了解容災計劃的制定和執(zhí)行步驟。
從以上介紹可以得知,制定容災計劃是一個涉及廣泛的復雜的十分技術化的工作,對一般非IT行業(yè)的企事業(yè)IT系統(tǒng)管理人員是極其困難的,企業(yè)建立一支配置完整的容災服務隊伍,無疑提高了IT系統(tǒng)的管理成本。此外,容災系統(tǒng)一旦建立,由于使用的概率很小,設備的利用率較低。所以,從容災工程發(fā)展的趨勢看,采用外包服務對大多數(shù)企事業(yè)是一個明智的選擇。面向眾多客戶業(yè)務系統(tǒng)的容災服務中心具有較高資源利用率,數(shù)據(jù)多重備份提供相對安全的數(shù)據(jù)保護,多種可自由選擇的容災服務方式適合不同的企事業(yè)的不同業(yè)務發(fā)展階段的需求,專業(yè)化的容災管理減少了容災管理的費用,快速的數(shù)據(jù)恢復能力最大限度地減少災難帶來的損失,為客戶定制的容災計劃可以根據(jù)需要隨時修改。
不同容災解決方案的RPO與RTO
容災系統(tǒng)的實施
存儲介質(zhì)的成本與容量
這一技術歷史表明,從長遠角度看,隨著老技術的過時,新技術開始取代它們,并總是保持一個穩(wěn)定的前進速度。在數(shù)據(jù)格式化與保存的進步中,磁帶技術是一個常量。
存儲成本的下降致使許多以前考慮的成本被放棄。例如減少使用案例類型、位映射顯示和彩色打印。
數(shù)據(jù)格式化的研究緊跟在各種數(shù)字化數(shù)據(jù)的計算機存儲要求之后進行。務必記住在“業(yè)務持續(xù)性”運營模式下保持數(shù)據(jù)完整性所需的存儲容量。
存儲容量的成本