當發(fā)生支持業(yè)務(wù)的基礎(chǔ)架構(gòu)中斷時如何盡可能的保持業(yè)務(wù)服務(wù)
災(zāi)難發(fā)生時及時向客戶提供響應(yīng),維持公眾的信心
滿足以下需求:
稽核的審查
標準/立法的要求
保險的要求
安全
許多的災(zāi)備方案被看成是一個技術(shù)的項目,僅僅有技術(shù)人員的介入,因此會造成項目實施后實際運行的實效性差,因為缺少業(yè)務(wù)與科技人員的有序配合。業(yè)務(wù)層面的恢復(fù)流程沒有和科技技術(shù)層面的恢復(fù)流程集成。災(zāi)備方案的實施目的是在發(fā)生災(zāi)難的時候,業(yè)務(wù)可以盡快恢復(fù)運行。因此一個成功的業(yè)務(wù)連續(xù)策略需要滿足重要業(yè)務(wù)流程的需求,需要業(yè)務(wù)及科技決策人的共同參與,需要超越傳統(tǒng)的備份/恢復(fù)及災(zāi)備計劃方案,將業(yè)務(wù)連續(xù)性計劃的制定視同為任何新系統(tǒng)的設(shè)計計劃的一部分,將其集成為IT變更管理流程的一部分,成為新應(yīng)用開發(fā)中的一個必要的非功能性需求。
因此一個業(yè)務(wù)連續(xù)性的工程啟動要先成立業(yè)務(wù)連續(xù)性項目管理辦公室(BCPO)。其組成人員為:一位項目總監(jiān)、幾位項目經(jīng)理。BCPO核心成員應(yīng)成立一個永久性的部門以支持正在進行的業(yè)務(wù)連續(xù)性工作,他們是:各主要業(yè)務(wù)部人員,應(yīng)用小組的代表,IT科技人員。BCPO負責(zé)開發(fā)業(yè)務(wù)連續(xù)性規(guī)劃,包括以下內(nèi)容:
業(yè)務(wù)連續(xù)性計劃的范疇定義
工程的任務(wù)定義
關(guān)鍵業(yè)務(wù)功能/關(guān)鍵應(yīng)用/業(yè)務(wù)影響分析
災(zāi)難定義??制定什么是災(zāi)難,需要啟動生產(chǎn)切換的準則
災(zāi)難的標準
災(zāi)難的情景設(shè)定
小組劃分及職責(zé)定義
業(yè)務(wù)恢復(fù)管理者/管理小組
關(guān)鍵經(jīng)理主管人員
災(zāi)難評估小組
對外媒體聯(lián)絡(luò)小組
業(yè)務(wù)恢復(fù)小組
技術(shù)恢復(fù)小組
用戶確認小組
設(shè)施/設(shè)備恢復(fù)小組
小組間交叉關(guān)系定義,發(fā)生災(zāi)難時詳細的聯(lián)絡(luò)計劃和機密資源需求流程
電話及聯(lián)系信息
內(nèi)容包括災(zāi)難預(yù)警、災(zāi)難恢復(fù)評估與決策、災(zāi)難恢復(fù)啟動、災(zāi)難恢復(fù)的執(zhí)行和回退
業(yè)務(wù)連續(xù)性計劃地維護、演習(xí)
如何實施業(yè)務(wù)運轉(zhuǎn)連續(xù)性,國內(nèi)的災(zāi)備備份模式
因為中國國土的遼闊,各企業(yè)的災(zāi)備中心的拓撲制定各不相同。對于那些完成了數(shù)據(jù)中心(IT)集中整合的企業(yè),通常災(zāi)備中心的拓撲設(shè)計如下圖所示:
在同城中建立熱接管的互備中心,接管的時間可以達到即時,數(shù)據(jù)丟失為零,中心之間的距離在100公里以內(nèi)。在此雙中心內(nèi),可以提供一個高可用系統(tǒng)的體系設(shè)計,防范非區(qū)域性災(zāi)難的故障:如某些硬件的故障、區(qū)域性火災(zāi)等等。實質(zhì)上是實現(xiàn)了一個跨中心的高冗余系統(tǒng)設(shè)計。比如:如果系統(tǒng)的磁盤系統(tǒng)發(fā)生故障時,無需啟動災(zāi)備系統(tǒng),可以自動熱切換到同城另一個新的磁盤系統(tǒng)上,業(yè)務(wù)繼續(xù)運行。
在跨城市、遠距離之間的中心建立異步的災(zāi)難備份中心,以防范區(qū)域性災(zāi)難。此兩中心之間的距離可以是幾千公里以上,數(shù)據(jù)的復(fù)制技術(shù)是異步的,加上應(yīng)用系統(tǒng)層面的自動化管理,系統(tǒng)的接管可以做到絕大部分的自動化,減少人為的操作錯誤,尤其是在災(zāi)難發(fā)生時,無法保證了解系統(tǒng)的技術(shù)人員一定可以到現(xiàn)場進行恢復(fù)操作。因此在災(zāi)備方案設(shè)計及實施中,是否可以做到極大化的系統(tǒng)操作自動化是一個非常重要的考量方面。
IBM服務(wù)部門有著豐富的災(zāi)備項目實施經(jīng)驗,以下是IBM服務(wù)部門建立業(yè)務(wù)連續(xù)性方案的方法論,起步于對企業(yè)所面臨的風(fēng)險分析,風(fēng)險對于業(yè)務(wù)可能帶來的影響分析,當前現(xiàn)狀的分析,從而可以制定合理的業(yè)務(wù)恢復(fù)目標及策略。在業(yè)務(wù)恢復(fù)的指標中:RPO(數(shù)據(jù)丟失量,通常以秒計算)、RTO(系統(tǒng)恢復(fù)時間)、NTO(網(wǎng)絡(luò)恢復(fù)時間)及業(yè)務(wù)的恢復(fù)范圍(比如優(yōu)先恢復(fù)那些業(yè)務(wù)的服務(wù),以銀行為例:恢復(fù)柜面業(yè)務(wù)、POS、ATM業(yè)務(wù)等等)是最重要的指標,它是連接技術(shù)方案選型及業(yè)務(wù)服務(wù)恢復(fù)承諾目標之間的關(guān)鍵可衡量的指標,并且決定性地影響著實施此方案的投資額度。
任何一個工程的實施都不會是千篇一律的。在此僅列出一個災(zāi)備工程的高層面項目實施步驟。僅供參考。
如何維護業(yè)務(wù)運轉(zhuǎn)連續(xù)性
完成了業(yè)務(wù)連續(xù)性方案的實施,并不意味著業(yè)務(wù)連續(xù)性計劃將保持一成不變。如果業(yè)務(wù)連續(xù)性計劃被束之高閣,一旦啟動,我們無從知曉災(zāi)備方案是否可以達到預(yù)期的戰(zhàn)略及戰(zhàn)術(shù)效果。隨著新的市場,新的行業(yè)規(guī)則的出現(xiàn);技術(shù)的革新,新的認證標準及新的業(yè)務(wù)模式的出現(xiàn);公司經(jīng)營方針、目標的改變,公司的重組及收購;新的法律條款的出現(xiàn);在不斷的實踐中方案可能逐步暴露出其缺陷、弱點;以上所有的情形均要求對災(zāi)備方案進行不停的維護、測試及演練。制定常規(guī)的災(zāi)備恢復(fù)演練計劃是非常必要的。演練的頻率、范圍均因企業(yè)的不同而不同。一般在銀行界,一年至少進行一次全面的業(yè)務(wù)層面的演練,數(shù)次系統(tǒng)層面、網(wǎng)絡(luò)層面及應(yīng)用層面的演練,以確?;謴?fù)流程的時效性、實效性和可行性,以及技術(shù)方案的正確性。
建立業(yè)務(wù)的韌性(resilience )— 災(zāi)難備份概念的拓展
隨時隨地的面對著諸多的非區(qū)域性自然災(zāi)難的不安全生產(chǎn)因素的困擾,我們怎么辦來確保企業(yè)的安全運營?這就是為什么當前業(yè)界引入業(yè)務(wù)的韌性(Resilience)的觀念及解決方案。
IBM確定了對于建立成功的業(yè)務(wù)韌性策略的六條必要的基本規(guī)則:
整合的風(fēng)險管理:這里突出的是“整合”。沒有一個全面的對業(yè)務(wù)風(fēng)險的了解,則無法準備好來應(yīng)對可能出現(xiàn)的問題。找出業(yè)務(wù)運營中的風(fēng)險并運用相關(guān)技術(shù)對其進行認知,響應(yīng)和管理。
業(yè)務(wù)運轉(zhuǎn)的連續(xù)性:這就是我們常常說的運用從業(yè)務(wù)級到IT的災(zāi)備方案來提供業(yè)務(wù)的連續(xù)運轉(zhuǎn)的能力。當發(fā)生宕機事故時,如何通過流程,即及時響應(yīng)的、高可用的、高可擴展的系統(tǒng)基礎(chǔ)架構(gòu)來維持業(yè)務(wù)系統(tǒng)的持續(xù)性運轉(zhuǎn)。
規(guī)章制度的服從:當中國加入世貿(mào)組織時,企業(yè)除了要了解國內(nèi)業(yè)界監(jiān)管機制的政策、策略、制度的要求外,還要充分認知世界范圍業(yè)界的規(guī)章制度,服從現(xiàn)有政府和業(yè)界的規(guī)章制度和標準,特別是有關(guān)信息的完整性和可用性方面。
安全、隱私和數(shù)據(jù)保護:通過正確的策略、方法、工具以及統(tǒng)一的監(jiān)管來確保數(shù)據(jù)、信息、系統(tǒng)以及人員的安全性和隱私性。
知識、專業(yè)和技能:為確保業(yè)務(wù)運行具有相應(yīng)的韌性,則必須確??梢栽谡_的時間和地點具有恰當?shù)娜肆Y源。僅僅建設(shè)一些基礎(chǔ)結(jié)構(gòu)來實施災(zāi)備,而不配和人力資源的恢復(fù)計劃,則依然無法提供業(yè)務(wù)的連續(xù)運轉(zhuǎn)。
應(yīng)對市場的動態(tài)變化:提高對快速變化的客戶需求和新的市場機遇的敏感程度以及響應(yīng)速度。建立具有彈性的基礎(chǔ)架構(gòu)體系,以響應(yīng)動態(tài)及快速的市場要求。
風(fēng)險管理是一個具有恢復(fù)能力企業(yè)的重要基礎(chǔ)組成部分之一。對于那些已經(jīng)認識到并實施了災(zāi)難備份方案的企業(yè),是時機進行全面業(yè)務(wù)韌性的建設(shè)了。業(yè)務(wù)的可恢復(fù)性整合了IT的可恢復(fù)性、高可用性、業(yè)務(wù)連續(xù)性以及信息安全項目,它同時也解決了管理,特別是規(guī)章制度的服從方面的問題。
IBM認為:通過具韌性的、靈活的基礎(chǔ)架構(gòu)支撐的具有恢復(fù)能力的業(yè)務(wù)系統(tǒng),可以幫助企業(yè)的業(yè)務(wù)系統(tǒng)適應(yīng)各種破壞以及災(zāi)難所帶來的挑戰(zhàn),同時能實時響應(yīng)新機遇和新變化,從而確保企業(yè)業(yè)務(wù)的持續(xù)運轉(zhuǎn)。