針對海量存儲系統(tǒng)的備份實(shí)現(xiàn),以下圖示(圖12-5)的是統(tǒng)一的實(shí)現(xiàn)架構(gòu)。


圖12-5 統(tǒng)一實(shí)現(xiàn)架構(gòu)


    12.2.1 遠(yuǎn)程備份容災(zāi)

    遠(yuǎn)程備份(e-vaulting)級別容災(zāi)滿足哪種需求

    針對對于恢復(fù)時(shí)間要求較高,而且有可能還沒有在本地實(shí)施備份系統(tǒng)的的部門,通過遠(yuǎn)程網(wǎng)絡(luò)直接將數(shù)據(jù)備份到海量存儲系統(tǒng)的存儲池中,可以大大提高容災(zāi)系統(tǒng)的RTO 和RPO,由于海量存儲系統(tǒng)具備最為妥善的介質(zhì)保存措施,不但可以將這些備好數(shù)據(jù)的介質(zhì)安全的保護(hù)起來,而且可以最大程度地保證介質(zhì)的數(shù)據(jù)可恢復(fù)性。

    采用這種容災(zāi)方式,一般要求恢復(fù)的數(shù)據(jù)時(shí)間點(diǎn)在災(zāi)難發(fā)生前的幾十分鐘到幾個(gè)小時(shí);而從災(zāi)難發(fā)生后,需要完成從恢復(fù)系統(tǒng)、恢復(fù)數(shù)據(jù)、直到實(shí)現(xiàn)對外提供應(yīng)用服務(wù)這么一整套的恢復(fù)工作,所需要時(shí)間大約為幾小時(shí)到一天。

    工作流程

    遠(yuǎn)程備份級別容災(zāi)的工作流程如下圖所示:


圖 12-6 遠(yuǎn)程備份級別容災(zāi)的工作流程


    首先海量存儲系統(tǒng)按照事先和各部門協(xié)商所制定的容災(zāi)計(jì)劃,定期(每天的某個(gè)時(shí)刻)自動(dòng)啟動(dòng)各部門的備份工作,將數(shù)據(jù)備份到海量存儲系統(tǒng)的存儲池中。

    備份數(shù)據(jù)會按照部門、日期、保存時(shí)間、數(shù)據(jù)類型等關(guān)鍵信息分類地存放在存儲池中,同時(shí)會再空閑時(shí)備份到磁帶中,并被保存到溫濕環(huán)境適當(dāng)、門禁嚴(yán)格、可防范多種災(zāi)害(如火災(zāi)、水災(zāi)等)的安全區(qū)域,海量存儲系統(tǒng)還為這些數(shù)據(jù)建立了完善的數(shù)據(jù)庫及其應(yīng)用管理系統(tǒng),以便快速的存取,并提供網(wǎng)上的數(shù)據(jù)備份查詢服務(wù)。

    而當(dāng)出現(xiàn)故障或自然災(zāi)害等災(zāi)難時(shí),在出現(xiàn)災(zāi)難的部門的本地?cái)?shù)據(jù)備份完全丟失的情況下,海量存儲系統(tǒng)可以按照該部門的要求將完成數(shù)據(jù)恢復(fù)所需的所有數(shù)據(jù)通過網(wǎng)絡(luò)恢復(fù)到該部門指定的備用服務(wù)器上,由該部門的技術(shù)人員(或在海量存儲系統(tǒng)技術(shù)人員的協(xié)助下)完成應(yīng)用的重新啟動(dòng)和對外開放;海量存儲系統(tǒng)也可以按照該部門的要求將將完成數(shù)據(jù)恢復(fù)所需的所有物理介質(zhì)通過人工運(yùn)輸?shù)皆摬块T指定的地點(diǎn),由該部門的技術(shù)人員(或在海量存儲系統(tǒng)技術(shù)人員的協(xié)助下)完成數(shù)據(jù)恢復(fù)工作。

    整個(gè)備份恢復(fù)的過程如果完全采用網(wǎng)絡(luò)傳輸,甚至在本地不需要做備份;所以如果該部門技術(shù)人員甚至不需要掌握備份和恢復(fù)技術(shù),在實(shí)施時(shí)可以大大加快進(jìn)度。

    上述是一種原理性的容災(zāi)實(shí)施步驟,簡化的標(biāo)準(zhǔn)可實(shí)施的流程如下:


  1. 和相關(guān)需要遠(yuǎn)程備份級別容災(zāi)的部門的技術(shù)及業(yè)務(wù)一起制定詳細(xì)的DRP 計(jì)劃,包括備份策略、恢復(fù)策略、雙方指定聯(lián)系人等;
  2. 必要的話,海量存儲系統(tǒng)可以對該部門人員(技術(shù)和業(yè)務(wù))進(jìn)行容災(zāi)知識培訓(xùn),并幫助其完成DRP 計(jì)劃;
  3. 海量存儲系統(tǒng)協(xié)助該部門完成遠(yuǎn)程備份系統(tǒng)客戶端及安全通信網(wǎng)絡(luò)的搭建;
  4. 海量存儲系統(tǒng)和遠(yuǎn)程備份部門按照DRP 計(jì)劃,按期執(zhí)行遠(yuǎn)程備份工作;
  5. 在海量存儲系統(tǒng)將數(shù)據(jù)保存在存儲池中的同時(shí),制作一份磁帶拷貝副本,并將其分門別類地存放在具備良好存放條件的遠(yuǎn)程備份區(qū),同時(shí)要建立完備的數(shù)據(jù)備份數(shù)據(jù)庫和管理系統(tǒng);
  6. 數(shù)據(jù)保存期間,海量存儲系統(tǒng)負(fù)責(zé)監(jiān)控?cái)?shù)據(jù)的安全性;而備份的磁帶介質(zhì)在存放期間,海量存儲系統(tǒng)一面要按照保存的時(shí)效完成介質(zhì)的更換或歸檔;一面定期對介質(zhì)進(jìn)行倒帶、防霉等維護(hù)操作,
  7. 各遠(yuǎn)程備份部門可以通過海量存儲系統(tǒng)對外開放的服務(wù)系統(tǒng),完成諸如查詢數(shù)據(jù)備份記錄,更改DRP 計(jì)劃等工作;
  8. 海量存儲系統(tǒng)應(yīng)當(dāng)配合遠(yuǎn)程備份部門定期實(shí)施DR 演練,確保DRP 計(jì)劃在災(zāi)難真正來臨是起到真正的作用;
  9. 當(dāng)災(zāi)難來臨時(shí),按照預(yù)先制定的DRP 計(jì)劃,快速實(shí)施數(shù)據(jù)恢復(fù)工作。

    系統(tǒng)架構(gòu)

    遠(yuǎn)程備份/容災(zāi)系統(tǒng)在海量存儲系統(tǒng)的總體邏輯拓?fù)浣Y(jié)構(gòu)如下圖所示:


圖12-7 遠(yuǎn)程備份/容災(zāi)邏輯圖


    整個(gè)系統(tǒng)主要由備份服務(wù)器、備份用磁盤陣列和磁帶庫三部分組成。此外備份客戶端安裝在遠(yuǎn)程的各部門服務(wù)器上,而網(wǎng)絡(luò)主要完成數(shù)據(jù)的可靠和安全傳輸。

    為了保證7×24 的備份服務(wù),無論是內(nèi)網(wǎng)、外網(wǎng)還是互聯(lián)網(wǎng)都是各由多臺服務(wù)器組成一個(gè)備份服務(wù)器集群,當(dāng)集群中某臺服務(wù)器出現(xiàn)故障時(shí),可以由其他服務(wù)器接替它的的工作。

    而備份服務(wù)器的主要工作有:

    在執(zhí)行遠(yuǎn)程備份操作時(shí),指引遠(yuǎn)程傳輸過來的備份數(shù)據(jù)流向備份用磁盤陣列;而在空閑時(shí)(沒有遠(yuǎn)程備份操作時(shí)),再將磁盤陣列的數(shù)據(jù)備份到磁帶庫中。

    磁盤陣列是遠(yuǎn)程備份的近線存儲,主要是為了提高備份的速度,最好地利用網(wǎng)絡(luò)帶寬。

    磁帶庫負(fù)責(zé)最終保存?zhèn)浞莸臄?shù)據(jù)。

    而遠(yuǎn)程備份管理應(yīng)用系統(tǒng)主要負(fù)責(zé)遠(yuǎn)程備份的自動(dòng)化管理;在數(shù)據(jù)到備份到存儲池中時(shí),海量存儲系統(tǒng)的遠(yuǎn)程備份管理應(yīng)用系統(tǒng)就會及時(shí)地將備份數(shù)據(jù)的相關(guān)信息保存起來。這樣遠(yuǎn)程備份管理應(yīng)用系統(tǒng)中就會保存有所有遠(yuǎn)程備份的相關(guān)信息,一方面供海量存儲系統(tǒng)內(nèi)部管理使用,一方面可以允許用戶可以通過Web 瀏覽器查詢自己的相關(guān)容災(zāi)信息。同樣為了安全起見,這里建立了內(nèi)網(wǎng)和外網(wǎng)兩套管理應(yīng)用系統(tǒng)。

    遠(yuǎn)程備份容災(zāi)系統(tǒng)的特點(diǎn)


    遠(yuǎn)程備份容災(zāi)系統(tǒng)需要考慮的要素:

    為了有效的提供遠(yuǎn)程備份服務(wù),不能簡單的將現(xiàn)有的本地備份技術(shù)應(yīng)用于遠(yuǎn)程備份,因?yàn)檫@樣將使得遠(yuǎn)程備份的成本、效率和服務(wù)質(zhì)量非常低下,從而嚴(yán)重阻礙遠(yuǎn)程備份服務(wù)的開展。因此在建設(shè)遠(yuǎn)程備份系統(tǒng)時(shí),需要在現(xiàn)有的備份技術(shù)基礎(chǔ)上著重考慮以下幾個(gè)因素:

    減少存儲投資

    一方面是解放硬件資源,降低實(shí)現(xiàn)同一任務(wù)所需要的設(shè)備要求;另外一方面是資源的充分利用,解決如何降低磁盤容量需求,提高磁盤利用率等因素,降低客戶在享受該服務(wù)時(shí)需要支付的設(shè)備成本。

    減少網(wǎng)絡(luò)帶寬需求

    帶寬對于本地備份而言不是關(guān)鍵問題,但如果需要實(shí)現(xiàn)異地備份,則是非常重要的一個(gè)成本因素,如果用戶為了享受該服務(wù)而必需支付昂貴的帶寬租用費(fèi)的話,那將是一個(gè)非常高的成本。因此需要采取一切措施減少遠(yuǎn)程備份所需要的帶寬資源。

    提高服務(wù)質(zhì)量,保證服務(wù)級別

    提供遠(yuǎn)程備份服務(wù)的目的是保證用戶系統(tǒng)在出現(xiàn)故障后能夠恢復(fù)、并且能夠在規(guī)定的時(shí)間內(nèi)恢復(fù)。

    降低管理費(fèi)用

    對普通的存儲系統(tǒng)而言,按照Gartner Group 的報(bào)告,其管理費(fèi)用是購置成本的8 倍。對幾種存儲系統(tǒng)而言,管理變得更復(fù)雜,對服務(wù)的要求更高,這一比例相應(yīng)更大。管理費(fèi)用分為兩個(gè)部分:對設(shè)備的維護(hù)管理和提供的服務(wù)。先進(jìn)的技術(shù),規(guī)劃良好的系統(tǒng)結(jié)構(gòu)和專業(yè)人員隊(duì)伍能極大地降低維護(hù)費(fèi)用。

    客戶端的多樣性和服務(wù)平臺的統(tǒng)一性

    由于備份客戶端會因?yàn)椴煌块T的不同應(yīng)用而不同,但在海量存儲系統(tǒng)可以采用統(tǒng)一平臺的備份服務(wù)器為各種備份客戶端提供服務(wù)。

    外網(wǎng)/互聯(lián)網(wǎng)與內(nèi)的區(qū)別

    外網(wǎng)/互聯(lián)網(wǎng)的數(shù)據(jù)大、服務(wù)多,所以采用的服務(wù)器數(shù)量較多,內(nèi)網(wǎng)的服務(wù)器數(shù)量較少。

    12.2.2 存儲資源監(jiān)控

    存儲管理和監(jiān)控對于了解、監(jiān)控與管理規(guī)模較大的存儲網(wǎng)絡(luò)是十分必要的。對于容災(zāi)系統(tǒng),這些管理可以有效的幫助位于數(shù)據(jù)中心與管理中心的管理人員從網(wǎng)絡(luò)、系統(tǒng)層面上進(jìn)行全面集中的監(jiān)控,為將來的發(fā)展以及整個(gè)存儲網(wǎng)絡(luò)的管理搭建管理框架,并且進(jìn)一步保證各子系統(tǒng)的管理與維護(hù)。

    存儲資源管理(SRM)是一組互為補(bǔ)充的產(chǎn)品、標(biāo)準(zhǔn)和進(jìn)程,用來對物理及邏輯存儲在可用性、容量、配置和性能等方面進(jìn)行報(bào)告,分析和自動(dòng)管理. –引自 Gartner

    簡單地說,SRM 提供了一個(gè)有關(guān)存儲網(wǎng)絡(luò)中的存儲容量及其使用狀況的動(dòng)態(tài)視圖,從而使管理員可以從一個(gè)中心管理控制臺監(jiān)控其所有存儲設(shè)備的狀態(tài)。即存儲資源管理負(fù)責(zé)管理存儲網(wǎng)絡(luò)上的各種系統(tǒng),包括數(shù)據(jù)庫、郵件系統(tǒng)、磁盤陣列、NAS、備份系統(tǒng)等對硬盤空間、磁帶庫空間的使用管理;監(jiān)控、預(yù)測、分析并以各種報(bào)表的方式呈現(xiàn)。其主要功能包括:


  1. 空間管理—-搜集空間的使用信息,監(jiān)控空間的使用,實(shí)現(xiàn)配額管理、預(yù)警、空間回收、數(shù)據(jù)遷移
  2. 容量規(guī)劃—-收集容量消耗的歷史信息,提供容量消耗速率報(bào)表,從而輔助完成容量的規(guī)劃
  3. 資產(chǎn)管理—-收集存儲資產(chǎn)信息,提供額外的元數(shù)據(jù)輸入
  4. 事件管理—-監(jiān)控、診斷以及在必要時(shí)修復(fù)存儲
  5. 性能管理—-收集存儲資源的性能數(shù)據(jù),提供性能分析報(bào)表,在物理的極限內(nèi)提高存儲資產(chǎn)的性能
  6. 配置管理—-決定如何對已有的物理存儲資源作出最好的安排

    用于將這些多種多樣的功能串接起來的公用線索是—-它們都是元數(shù)據(jù)驅(qū)動(dòng)的。元數(shù)據(jù)(Metadata,關(guān)于數(shù)據(jù)的數(shù)據(jù))匯集了每個(gè)被管理的存儲對象的信息,包括數(shù)據(jù)文件(大小、創(chuàng)建日期和屬主)和物理存儲系統(tǒng)(容量和性能特征)。 這些信息可以被那些負(fù)責(zé)存儲的管理員、數(shù)據(jù)庫管理員,IS 規(guī)劃人員以及IS 執(zhí)行人員用來輔助決策。

    SRM 是對許多具體的存儲管理功能的新的分類方法—-例如容量規(guī)劃和空間管理(這些功能已經(jīng)出現(xiàn)很長時(shí)間了)。這種在SRM 下的重新分類簡化了自動(dòng)化的任務(wù)并隱藏了這些管理任務(wù)的復(fù)雜性,因而可以幫助IS 向存儲公用設(shè)施方向發(fā)展。

    12.2.3 存儲網(wǎng)絡(luò)管理

    負(fù)責(zé)發(fā)現(xiàn)、監(jiān)控與管理整個(gè)存儲網(wǎng)絡(luò),以及網(wǎng)絡(luò)的連接性、每個(gè)節(jié)點(diǎn)的狀態(tài)、網(wǎng)絡(luò)可用性、系統(tǒng)性能等等,完善的事件管理可以將事件及時(shí)地以各種方式報(bào)告給管理員。同時(shí),還可以對光纖交換機(jī)等網(wǎng)絡(luò)設(shè)備進(jìn)行配置管理。

    更具體地說,對各交換機(jī)經(jīng)常查看其所處 SAN 架構(gòu)的運(yùn)行狀況,及早發(fā)現(xiàn)潛在問題并自動(dòng)向網(wǎng)絡(luò)管理員報(bào)警,從而消除了隱患,避免了故障的進(jìn)一步升級。

    通過跟蹤廣泛的fabric 事件,為SAN 解決方案傳遞出了最有價(jià)值的信息。例如,它應(yīng)該監(jiān)控:


    在監(jiān)控到各種要素發(fā)生規(guī)定范圍外的變化,應(yīng)自動(dòng)、及時(shí)地通知管理員,通知的方式應(yīng)有如下幾種:


  1. 通過向指定e-mail 地址發(fā)送信息的方式提供事件通知
  2. 通過簡單網(wǎng)絡(luò)管理協(xié)議(SNMP)發(fā)通知
  3. 事件記錄(Event Log)條目記錄事件
  4. 通過鎖定端口記錄
  5. 通過UNIX 的標(biāo)準(zhǔn)系統(tǒng)記錄和事件接口集成在一起的SYSLOG 發(fā)通知

    同時(shí),網(wǎng)絡(luò)監(jiān)控的參數(shù)應(yīng)可快速配置,并可將監(jiān)控功能集成到一些企業(yè)級管理軟件中。

    12.2.4 系統(tǒng)監(jiān)控管理

    系統(tǒng)管理軟件能夠幫助IT 管理部門持續(xù)的監(jiān)控分布式的異構(gòu)系統(tǒng)和網(wǎng)絡(luò)設(shè)備的運(yùn)行狀態(tài),它可以支持OS/390、z/OS、UNIX、Linux、Windows、OS/400、Tandem NSK、Open VMS、PalmOS、MVS等幾十種操作系統(tǒng)確保管理的擴(kuò)展性,并且提供非常靈活的體系架構(gòu)從而有利于管理范圍的伸縮行。海量存儲系統(tǒng)系統(tǒng)要求系統(tǒng)管理軟件具有內(nèi)置的智能包括高級事件關(guān)聯(lián)Advanced Event Correlation (AEC)可以提供根源分析的能力,快速隔離非根源事件并迅速發(fā)現(xiàn)故障原因。

    12.2.5 服務(wù)管理

    服務(wù)水平管理

    海量存儲系統(tǒng)實(shí)際上是一個(gè)數(shù)據(jù)存儲,備份和再處理中心,為各種用戶提供高質(zhì)量的IT 服務(wù);為此需要海量存儲系統(tǒng)具有很高的服務(wù)水平(Service Level)。以往一般是依靠嚴(yán)密的數(shù)據(jù)中心管理制度等人為方法來保證,但多年的實(shí)踐經(jīng)驗(yàn)說明需要采用可視化的、量化的管理方式和手段,所以容災(zāi)在制定完善的服務(wù)水平管理規(guī)范的同時(shí),也要采用高效的管理軟件實(shí)現(xiàn)計(jì)算機(jī)化的管理,提高服務(wù)響應(yīng)速度和水平。

    服務(wù)水平要求是一個(gè)綜合的、基于Web 的解決方案,能夠管理跨越整個(gè)海量存儲系統(tǒng)基礎(chǔ)架構(gòu)的預(yù)定義的服務(wù)目標(biāo)。它能夠直接從各種不同來源包括基于SNMP 的應(yīng)用程序和網(wǎng)絡(luò)服務(wù)如SMTP、POP、NNTP 和HTTP 等方面收集可用性和性能數(shù)據(jù),其高級配置工具應(yīng)當(dāng)允許管理員設(shè)置批量報(bào)告產(chǎn)生的時(shí)間間隔。服務(wù)報(bào)告基于這些數(shù)據(jù)產(chǎn)生。

    運(yùn)維管理

    運(yùn)維管理包括運(yùn)維規(guī)范和輔助的運(yùn)維管理系統(tǒng)。運(yùn)維規(guī)范在《運(yùn)行維護(hù)》一節(jié)做詳細(xì)闡述。

    運(yùn)維管理系統(tǒng)是一個(gè)綜合的、集成的智能服務(wù)臺解決方案,它可以接受通過Call Center或Web 界面手工提交的問題,也可以自動(dòng)接收事件管理平臺轉(zhuǎn)發(fā)的問題,并且按照規(guī)范的處理流程完成問題請求、變更管理以及服務(wù)水平管理,科學(xué)的自動(dòng)的完成人力資源分配,確保每個(gè)問題及時(shí)解決。

    基于運(yùn)維管理系統(tǒng)建設(shè)的IT 服務(wù)支持系統(tǒng)是整個(gè)系統(tǒng)管理體系的核心。它把用戶、各級支持人員、被管理IT 系統(tǒng)和監(jiān)控管理軟件有機(jī)的結(jié)合起來,通過服務(wù)臺提供的標(biāo)準(zhǔn)化管理模式協(xié)同工作,使整體IT 服務(wù)支持體系達(dá)到高效、有序、迅捷的預(yù)期目標(biāo),從IT 服務(wù)支持的基礎(chǔ)方面保障各項(xiàng)業(yè)務(wù)系統(tǒng)的高效運(yùn)行。

分享到

多易

相關(guān)推薦