針對海量存儲系統(tǒng)的備份實(shí)現(xiàn),以下圖示(圖12-5)的是統(tǒng)一的實(shí)現(xiàn)架構(gòu)。
圖12-5 統(tǒng)一實(shí)現(xiàn)架構(gòu)
12.2.1 遠(yuǎn)程備份容災(zāi)
遠(yuǎn)程備份(e-vaulting)級別容災(zāi)滿足哪種需求
針對對于恢復(fù)時(shí)間要求較高,而且有可能還沒有在本地實(shí)施備份系統(tǒng)的的部門,通過遠(yuǎn)程網(wǎng)絡(luò)直接將數(shù)據(jù)備份到海量存儲系統(tǒng)的存儲池中,可以大大提高容災(zāi)系統(tǒng)的RTO 和RPO,由于海量存儲系統(tǒng)具備最為妥善的介質(zhì)保存措施,不但可以將這些備好數(shù)據(jù)的介質(zhì)安全的保護(hù)起來,而且可以最大程度地保證介質(zhì)的數(shù)據(jù)可恢復(fù)性。
采用這種容災(zāi)方式,一般要求恢復(fù)的數(shù)據(jù)時(shí)間點(diǎn)在災(zāi)難發(fā)生前的幾十分鐘到幾個(gè)小時(shí);而從災(zāi)難發(fā)生后,需要完成從恢復(fù)系統(tǒng)、恢復(fù)數(shù)據(jù)、直到實(shí)現(xiàn)對外提供應(yīng)用服務(wù)這么一整套的恢復(fù)工作,所需要時(shí)間大約為幾小時(shí)到一天。
工作流程
遠(yuǎn)程備份級別容災(zāi)的工作流程如下圖所示:
圖 12-6 遠(yuǎn)程備份級別容災(zāi)的工作流程
首先海量存儲系統(tǒng)按照事先和各部門協(xié)商所制定的容災(zāi)計(jì)劃,定期(每天的某個(gè)時(shí)刻)自動(dòng)啟動(dòng)各部門的備份工作,將數(shù)據(jù)備份到海量存儲系統(tǒng)的存儲池中。
備份數(shù)據(jù)會按照部門、日期、保存時(shí)間、數(shù)據(jù)類型等關(guān)鍵信息分類地存放在存儲池中,同時(shí)會再空閑時(shí)備份到磁帶中,并被保存到溫濕環(huán)境適當(dāng)、門禁嚴(yán)格、可防范多種災(zāi)害(如火災(zāi)、水災(zāi)等)的安全區(qū)域,海量存儲系統(tǒng)還為這些數(shù)據(jù)建立了完善的數(shù)據(jù)庫及其應(yīng)用管理系統(tǒng),以便快速的存取,并提供網(wǎng)上的數(shù)據(jù)備份查詢服務(wù)。
而當(dāng)出現(xiàn)故障或自然災(zāi)害等災(zāi)難時(shí),在出現(xiàn)災(zāi)難的部門的本地?cái)?shù)據(jù)備份完全丟失的情況下,海量存儲系統(tǒng)可以按照該部門的要求將完成數(shù)據(jù)恢復(fù)所需的所有數(shù)據(jù)通過網(wǎng)絡(luò)恢復(fù)到該部門指定的備用服務(wù)器上,由該部門的技術(shù)人員(或在海量存儲系統(tǒng)技術(shù)人員的協(xié)助下)完成應(yīng)用的重新啟動(dòng)和對外開放;海量存儲系統(tǒng)也可以按照該部門的要求將將完成數(shù)據(jù)恢復(fù)所需的所有物理介質(zhì)通過人工運(yùn)輸?shù)皆摬块T指定的地點(diǎn),由該部門的技術(shù)人員(或在海量存儲系統(tǒng)技術(shù)人員的協(xié)助下)完成數(shù)據(jù)恢復(fù)工作。
整個(gè)備份恢復(fù)的過程如果完全采用網(wǎng)絡(luò)傳輸,甚至在本地不需要做備份;所以如果該部門技術(shù)人員甚至不需要掌握備份和恢復(fù)技術(shù),在實(shí)施時(shí)可以大大加快進(jìn)度。
上述是一種原理性的容災(zāi)實(shí)施步驟,簡化的標(biāo)準(zhǔn)可實(shí)施的流程如下:
系統(tǒng)架構(gòu)
遠(yuǎn)程備份/容災(zāi)系統(tǒng)在海量存儲系統(tǒng)的總體邏輯拓?fù)浣Y(jié)構(gòu)如下圖所示:
圖12-7 遠(yuǎn)程備份/容災(zāi)邏輯圖
整個(gè)系統(tǒng)主要由備份服務(wù)器、備份用磁盤陣列和磁帶庫三部分組成。此外備份客戶端安裝在遠(yuǎn)程的各部門服務(wù)器上,而網(wǎng)絡(luò)主要完成數(shù)據(jù)的可靠和安全傳輸。
為了保證7×24 的備份服務(wù),無論是內(nèi)網(wǎng)、外網(wǎng)還是互聯(lián)網(wǎng)都是各由多臺服務(wù)器組成一個(gè)備份服務(wù)器集群,當(dāng)集群中某臺服務(wù)器出現(xiàn)故障時(shí),可以由其他服務(wù)器接替它的的工作。
而備份服務(wù)器的主要工作有:
在執(zhí)行遠(yuǎn)程備份操作時(shí),指引遠(yuǎn)程傳輸過來的備份數(shù)據(jù)流向備份用磁盤陣列;而在空閑時(shí)(沒有遠(yuǎn)程備份操作時(shí)),再將磁盤陣列的數(shù)據(jù)備份到磁帶庫中。
磁盤陣列是遠(yuǎn)程備份的近線存儲,主要是為了提高備份的速度,最好地利用網(wǎng)絡(luò)帶寬。
磁帶庫負(fù)責(zé)最終保存?zhèn)浞莸臄?shù)據(jù)。
而遠(yuǎn)程備份管理應(yīng)用系統(tǒng)主要負(fù)責(zé)遠(yuǎn)程備份的自動(dòng)化管理;在數(shù)據(jù)到備份到存儲池中時(shí),海量存儲系統(tǒng)的遠(yuǎn)程備份管理應(yīng)用系統(tǒng)就會及時(shí)地將備份數(shù)據(jù)的相關(guān)信息保存起來。這樣遠(yuǎn)程備份管理應(yīng)用系統(tǒng)中就會保存有所有遠(yuǎn)程備份的相關(guān)信息,一方面供海量存儲系統(tǒng)內(nèi)部管理使用,一方面可以允許用戶可以通過Web 瀏覽器查詢自己的相關(guān)容災(zāi)信息。同樣為了安全起見,這里建立了內(nèi)網(wǎng)和外網(wǎng)兩套管理應(yīng)用系統(tǒng)。
遠(yuǎn)程備份容災(zāi)系統(tǒng)的特點(diǎn)
遠(yuǎn)程備份容災(zāi)系統(tǒng)需要考慮的要素:
為了有效的提供遠(yuǎn)程備份服務(wù),不能簡單的將現(xiàn)有的本地備份技術(shù)應(yīng)用于遠(yuǎn)程備份,因?yàn)檫@樣將使得遠(yuǎn)程備份的成本、效率和服務(wù)質(zhì)量非常低下,從而嚴(yán)重阻礙遠(yuǎn)程備份服務(wù)的開展。因此在建設(shè)遠(yuǎn)程備份系統(tǒng)時(shí),需要在現(xiàn)有的備份技術(shù)基礎(chǔ)上著重考慮以下幾個(gè)因素:
減少存儲投資
一方面是解放硬件資源,降低實(shí)現(xiàn)同一任務(wù)所需要的設(shè)備要求;另外一方面是資源的充分利用,解決如何降低磁盤容量需求,提高磁盤利用率等因素,降低客戶在享受該服務(wù)時(shí)需要支付的設(shè)備成本。
減少網(wǎng)絡(luò)帶寬需求
帶寬對于本地備份而言不是關(guān)鍵問題,但如果需要實(shí)現(xiàn)異地備份,則是非常重要的一個(gè)成本因素,如果用戶為了享受該服務(wù)而必需支付昂貴的帶寬租用費(fèi)的話,那將是一個(gè)非常高的成本。因此需要采取一切措施減少遠(yuǎn)程備份所需要的帶寬資源。
提高服務(wù)質(zhì)量,保證服務(wù)級別
提供遠(yuǎn)程備份服務(wù)的目的是保證用戶系統(tǒng)在出現(xiàn)故障后能夠恢復(fù)、并且能夠在規(guī)定的時(shí)間內(nèi)恢復(fù)。
降低管理費(fèi)用
對普通的存儲系統(tǒng)而言,按照Gartner Group 的報(bào)告,其管理費(fèi)用是購置成本的8 倍。對幾種存儲系統(tǒng)而言,管理變得更復(fù)雜,對服務(wù)的要求更高,這一比例相應(yīng)更大。管理費(fèi)用分為兩個(gè)部分:對設(shè)備的維護(hù)管理和提供的服務(wù)。先進(jìn)的技術(shù),規(guī)劃良好的系統(tǒng)結(jié)構(gòu)和專業(yè)人員隊(duì)伍能極大地降低維護(hù)費(fèi)用。
客戶端的多樣性和服務(wù)平臺的統(tǒng)一性
由于備份客戶端會因?yàn)椴煌块T的不同應(yīng)用而不同,但在海量存儲系統(tǒng)可以采用統(tǒng)一平臺的備份服務(wù)器為各種備份客戶端提供服務(wù)。
外網(wǎng)/互聯(lián)網(wǎng)與內(nèi)的區(qū)別
外網(wǎng)/互聯(lián)網(wǎng)的數(shù)據(jù)大、服務(wù)多,所以采用的服務(wù)器數(shù)量較多,內(nèi)網(wǎng)的服務(wù)器數(shù)量較少。
12.2.2 存儲資源監(jiān)控
存儲管理和監(jiān)控對于了解、監(jiān)控與管理規(guī)模較大的存儲網(wǎng)絡(luò)是十分必要的。對于容災(zāi)系統(tǒng),這些管理可以有效的幫助位于數(shù)據(jù)中心與管理中心的管理人員從網(wǎng)絡(luò)、系統(tǒng)層面上進(jìn)行全面集中的監(jiān)控,為將來的發(fā)展以及整個(gè)存儲網(wǎng)絡(luò)的管理搭建管理框架,并且進(jìn)一步保證各子系統(tǒng)的管理與維護(hù)。
存儲資源管理(SRM)是一組互為補(bǔ)充的產(chǎn)品、標(biāo)準(zhǔn)和進(jìn)程,用來對物理及邏輯存儲在可用性、容量、配置和性能等方面進(jìn)行報(bào)告,分析和自動(dòng)管理. –引自 Gartner
簡單地說,SRM 提供了一個(gè)有關(guān)存儲網(wǎng)絡(luò)中的存儲容量及其使用狀況的動(dòng)態(tài)視圖,從而使管理員可以從一個(gè)中心管理控制臺監(jiān)控其所有存儲設(shè)備的狀態(tài)。即存儲資源管理負(fù)責(zé)管理存儲網(wǎng)絡(luò)上的各種系統(tǒng),包括數(shù)據(jù)庫、郵件系統(tǒng)、磁盤陣列、NAS、備份系統(tǒng)等對硬盤空間、磁帶庫空間的使用管理;監(jiān)控、預(yù)測、分析并以各種報(bào)表的方式呈現(xiàn)。其主要功能包括:
用于將這些多種多樣的功能串接起來的公用線索是—-它們都是元數(shù)據(jù)驅(qū)動(dòng)的。元數(shù)據(jù)(Metadata,關(guān)于數(shù)據(jù)的數(shù)據(jù))匯集了每個(gè)被管理的存儲對象的信息,包括數(shù)據(jù)文件(大小、創(chuàng)建日期和屬主)和物理存儲系統(tǒng)(容量和性能特征)。 這些信息可以被那些負(fù)責(zé)存儲的管理員、數(shù)據(jù)庫管理員,IS 規(guī)劃人員以及IS 執(zhí)行人員用來輔助決策。
SRM 是對許多具體的存儲管理功能的新的分類方法—-例如容量規(guī)劃和空間管理(這些功能已經(jīng)出現(xiàn)很長時(shí)間了)。這種在SRM 下的重新分類簡化了自動(dòng)化的任務(wù)并隱藏了這些管理任務(wù)的復(fù)雜性,因而可以幫助IS 向存儲公用設(shè)施方向發(fā)展。
12.2.3 存儲網(wǎng)絡(luò)管理
負(fù)責(zé)發(fā)現(xiàn)、監(jiān)控與管理整個(gè)存儲網(wǎng)絡(luò),以及網(wǎng)絡(luò)的連接性、每個(gè)節(jié)點(diǎn)的狀態(tài)、網(wǎng)絡(luò)可用性、系統(tǒng)性能等等,完善的事件管理可以將事件及時(shí)地以各種方式報(bào)告給管理員。同時(shí),還可以對光纖交換機(jī)等網(wǎng)絡(luò)設(shè)備進(jìn)行配置管理。
更具體地說,對各交換機(jī)經(jīng)常查看其所處 SAN 架構(gòu)的運(yùn)行狀況,及早發(fā)現(xiàn)潛在問題并自動(dòng)向網(wǎng)絡(luò)管理員報(bào)警,從而消除了隱患,避免了故障的進(jìn)一步升級。
通過跟蹤廣泛的fabric 事件,為SAN 解決方案傳遞出了最有價(jià)值的信息。例如,它應(yīng)該監(jiān)控:
在監(jiān)控到各種要素發(fā)生規(guī)定范圍外的變化,應(yīng)自動(dòng)、及時(shí)地通知管理員,通知的方式應(yīng)有如下幾種:
同時(shí),網(wǎng)絡(luò)監(jiān)控的參數(shù)應(yīng)可快速配置,并可將監(jiān)控功能集成到一些企業(yè)級管理軟件中。
12.2.4 系統(tǒng)監(jiān)控管理
系統(tǒng)管理軟件能夠幫助IT 管理部門持續(xù)的監(jiān)控分布式的異構(gòu)系統(tǒng)和網(wǎng)絡(luò)設(shè)備的運(yùn)行狀態(tài),它可以支持OS/390、z/OS、UNIX、Linux、Windows、OS/400、Tandem NSK、Open VMS、PalmOS、MVS等幾十種操作系統(tǒng)確保管理的擴(kuò)展性,并且提供非常靈活的體系架構(gòu)從而有利于管理范圍的伸縮行。海量存儲系統(tǒng)系統(tǒng)要求系統(tǒng)管理軟件具有內(nèi)置的智能包括高級事件關(guān)聯(lián)Advanced Event Correlation (AEC)可以提供根源分析的能力,快速隔離非根源事件并迅速發(fā)現(xiàn)故障原因。
12.2.5 服務(wù)管理
服務(wù)水平管理
海量存儲系統(tǒng)實(shí)際上是一個(gè)數(shù)據(jù)存儲,備份和再處理中心,為各種用戶提供高質(zhì)量的IT 服務(wù);為此需要海量存儲系統(tǒng)具有很高的服務(wù)水平(Service Level)。以往一般是依靠嚴(yán)密的數(shù)據(jù)中心管理制度等人為方法來保證,但多年的實(shí)踐經(jīng)驗(yàn)說明需要采用可視化的、量化的管理方式和手段,所以容災(zāi)在制定完善的服務(wù)水平管理規(guī)范的同時(shí),也要采用高效的管理軟件實(shí)現(xiàn)計(jì)算機(jī)化的管理,提高服務(wù)響應(yīng)速度和水平。
服務(wù)水平要求是一個(gè)綜合的、基于Web 的解決方案,能夠管理跨越整個(gè)海量存儲系統(tǒng)基礎(chǔ)架構(gòu)的預(yù)定義的服務(wù)目標(biāo)。它能夠直接從各種不同來源包括基于SNMP 的應(yīng)用程序和網(wǎng)絡(luò)服務(wù)如SMTP、POP、NNTP 和HTTP 等方面收集可用性和性能數(shù)據(jù),其高級配置工具應(yīng)當(dāng)允許管理員設(shè)置批量報(bào)告產(chǎn)生的時(shí)間間隔。服務(wù)報(bào)告基于這些數(shù)據(jù)產(chǎn)生。
運(yùn)維管理
運(yùn)維管理包括運(yùn)維規(guī)范和輔助的運(yùn)維管理系統(tǒng)。運(yùn)維規(guī)范在《運(yùn)行維護(hù)》一節(jié)做詳細(xì)闡述。
運(yùn)維管理系統(tǒng)是一個(gè)綜合的、集成的智能服務(wù)臺解決方案,它可以接受通過Call Center或Web 界面手工提交的問題,也可以自動(dòng)接收事件管理平臺轉(zhuǎn)發(fā)的問題,并且按照規(guī)范的處理流程完成問題請求、變更管理以及服務(wù)水平管理,科學(xué)的自動(dòng)的完成人力資源分配,確保每個(gè)問題及時(shí)解決。
基于運(yùn)維管理系統(tǒng)建設(shè)的IT 服務(wù)支持系統(tǒng)是整個(gè)系統(tǒng)管理體系的核心。它把用戶、各級支持人員、被管理IT 系統(tǒng)和監(jiān)控管理軟件有機(jī)的結(jié)合起來,通過服務(wù)臺提供的標(biāo)準(zhǔn)化管理模式協(xié)同工作,使整體IT 服務(wù)支持體系達(dá)到高效、有序、迅捷的預(yù)期目標(biāo),從IT 服務(wù)支持的基礎(chǔ)方面保障各項(xiàng)業(yè)務(wù)系統(tǒng)的高效運(yùn)行。