吳憂再一次侃侃而談。在系統(tǒng)設(shè)計(jì)中,企業(yè)一般會(huì)考慮做數(shù)據(jù)備份和采用主機(jī)集群的結(jié)構(gòu),因?yàn)樗鼈兡芙鉀Q本地?cái)?shù)據(jù)的安全性和可用性。這是針對(duì)慢性容災(zāi)的本地解決方案,如果當(dāng)某臺(tái)主機(jī)出現(xiàn)故障,不能正常工作時(shí),其他的主機(jī)可以替代該主機(jī),繼續(xù)進(jìn)行正常的工作。目前人們所注意到的容災(zāi),大部分也都只是停留在本地容災(zāi)的層面上。但對(duì)某些地區(qū)的某類企業(yè)來講,光有本地容災(zāi)是遠(yuǎn)遠(yuǎn)不夠的。其關(guān)鍵業(yè)務(wù)應(yīng)用,必須要防范地震、洪水、戰(zhàn)爭(zhēng)等自然災(zāi)難。因此應(yīng)該采用異地容災(zāi)的保護(hù)措施。一套完整的容災(zāi)方案應(yīng)該包括本地容災(zāi)和異地容災(zāi)兩套系統(tǒng)。
遠(yuǎn)程容災(zāi)系統(tǒng)具備應(yīng)付各種災(zāi)難特別是區(qū)域性與毀滅性災(zāi)難的能力,具備較為完善的數(shù)據(jù)保護(hù)與災(zāi)難恢復(fù)功能,保證災(zāi)難降臨時(shí)數(shù)據(jù)的完整性及業(yè)務(wù)的連續(xù)性,并在最短時(shí)間內(nèi)恢復(fù)業(yè)務(wù)系統(tǒng)的正常運(yùn)行,將損失降到最小。其系統(tǒng)一般由生產(chǎn)系統(tǒng)、可接替運(yùn)行的后備系統(tǒng)、數(shù)據(jù)備份系統(tǒng)、備用通信線路等部分組成。在正常生產(chǎn)和數(shù)據(jù)備份狀態(tài)下,生產(chǎn)系統(tǒng)向備份系統(tǒng)傳送需備份的數(shù)據(jù)。災(zāi)難發(fā)生后,當(dāng)系統(tǒng)處于災(zāi)難恢復(fù)狀態(tài)時(shí),備份系統(tǒng)將接替生產(chǎn)系統(tǒng)繼續(xù)運(yùn)行。此時(shí)重要營(yíng)業(yè)終端用戶將從生產(chǎn)主機(jī)切換到備份中心主機(jī),繼續(xù)對(duì)外營(yíng)業(yè)。
這種備份目前分為兩種形式,一種是歷史備份,一般采用每天凌晨備份的形式,出現(xiàn)問題可以恢復(fù)一天前的數(shù)據(jù)。如果對(duì)數(shù)據(jù)要求不是很高的話,可以采用三天,甚至一周備份的方式,可以節(jié)約很多成本。
那么我們泰坦要選擇多遠(yuǎn)的距離來搭建異地容災(zāi)系統(tǒng)?幾公里?幾十公里?還是幾千公里?陳默還是不太明白。
吳憂說,這就需要根據(jù)企業(yè)自身狀況來定了。同樣是容災(zāi)系統(tǒng),如果容災(zāi)的目標(biāo)只是在城市中防范火災(zāi)等較低級(jí)別的災(zāi)難事件,那么存儲(chǔ)在與應(yīng)用地距離幾公里的地方就能較好地滿足要求。如果是防水災(zāi),則要求它們之間的距離在數(shù)公里以上。如果是預(yù)防地震,則需要保持幾百公里的距離。基本來說,數(shù)據(jù)存儲(chǔ)距離與應(yīng)用地越遠(yuǎn),容災(zāi)性也就越強(qiáng),100公里以上的異地災(zāi)難備份將是未來的一種趨勢(shì)。只要IP可達(dá),并且網(wǎng)絡(luò)帶寬足夠,數(shù)據(jù)不再懼怕自然災(zāi)害。吳憂總結(jié)道。
還在對(duì)剛剛結(jié)束的地震痛定思痛的倪克聽完之后當(dāng)場(chǎng)拍板,泰坦也要建異地容災(zāi)系統(tǒng),而且地點(diǎn)要選得遠(yuǎn)一點(diǎn),就在南方的沿海城市C城。隔著幾百公里,這下總安全了吧?
第四次沉沒Game Over
自從數(shù)據(jù)級(jí)、應(yīng)用級(jí)和異地容災(zāi)系統(tǒng)建成后,陳默覺得自己終于可以高枕無憂了。就算地震再來一次,公司的全部數(shù)據(jù)和應(yīng)用都可以實(shí)現(xiàn)異地切換。
不過,存好公司的咨詢部門給陳默打來電話說,泰坦目前在硬件上是沒有問題了,但做好容災(zāi)非一日之功,還需要進(jìn)行一些“軟件工作”。這個(gè)軟件指的不是真正的軟件,而是指系統(tǒng)的日常維護(hù)和管理、流程和人員組織、容災(zāi)演習(xí)、策略和知識(shí)培訓(xùn)等工作,當(dāng)然,流程咨詢、策略和知識(shí)培訓(xùn)是要收費(fèi)的。
陳默把這個(gè)消息告訴了老板,并陳述了自己認(rèn)為應(yīng)該做好容災(zāi)系統(tǒng)維護(hù)管理的幾條理由:第一,公司有上百個(gè)應(yīng)用系統(tǒng),不能停頓的關(guān)鍵業(yè)務(wù)就有40多個(gè),系統(tǒng)很是復(fù)雜;第二,存好是容災(zāi)行業(yè)的領(lǐng)先公司,積累了大量的經(jīng)驗(yàn),給很多大企業(yè)做過容災(zāi),他們結(jié)合ITSM的先進(jìn)理念,并形成了自己的方法論。另外,陳默曾參加了金融行業(yè)的一個(gè)容災(zāi)論壇,一些用戶的現(xiàn)身說法給他留下深刻的印象。所以,還是應(yīng)該請(qǐng)存好公司的咨詢部門來做顧問和培訓(xùn)。
讓陳默感到高興的是,倪克經(jīng)過前幾次事件的折騰,已經(jīng)吃一塹長(zhǎng)一智,讓存好來輔助做服務(wù)的事很快就敲定了,費(fèi)用馬上就批了。
不過,倪克約法三章:第一,日常維護(hù)等一些偏技術(shù)的事還是自己來吧,先不外包,不然公司白養(yǎng)了這么多的技術(shù)人員;第二,咨詢公司的費(fèi)用照付,但要學(xué)到人家的策略和方法,培養(yǎng)自己在災(zāi)難恢復(fù)上的技術(shù)能力和管理能力,不能總是依靠外援,也不能總花冤枉錢;第三,要是培訓(xùn)完了再出問題,拿陳默是問。
一切進(jìn)展還算順利,災(zāi)難風(fēng)險(xiǎn)評(píng)估、業(yè)務(wù)影響分析、災(zāi)難恢復(fù)策略設(shè)計(jì)、詳細(xì)方案設(shè)計(jì)、容災(zāi)方案實(shí)施、災(zāi)難恢復(fù)計(jì)劃開發(fā)以及最后的災(zāi)難恢復(fù)測(cè)試和演習(xí)都按部就班。按照計(jì)劃,員工以部門為單位和以流程為單位分成幾個(gè)小組進(jìn)行培訓(xùn)和演習(xí)。存好公司把整個(gè)咨詢過程分為三個(gè)部分:技術(shù)、人和流程。
在人的方面,存好公司把泰坦公司的開發(fā)人員和運(yùn)營(yíng)維護(hù)人員分開培訓(xùn)。在流程方面,根據(jù)公司的情況引進(jìn)了ITIL(IT服務(wù)管理)體系,并根據(jù)國(guó)外電信公司的經(jīng)驗(yàn),結(jié)合泰坦公司的實(shí)際,分為事故管理、問題管理、配置管理、變更管理和發(fā)布管理等五個(gè)方面進(jìn)行培訓(xùn)。
在實(shí)戰(zhàn)階段,存好公司對(duì)泰坦公司的數(shù)據(jù)中心、整個(gè)公司的大樓分布以及分公司數(shù)據(jù)中心情況都做了詳細(xì)的考察,包括網(wǎng)絡(luò)系統(tǒng)、服務(wù)器數(shù)量和存儲(chǔ)架構(gòu)、樓梯通道、電源系統(tǒng)等多個(gè)環(huán)節(jié)。通過需求分析,最終制定了容災(zāi)實(shí)施對(duì)策演習(xí)方案,并以泰坦全部員工都能聽懂的語言,從標(biāo)準(zhǔn)化管理、權(quán)限身份管理、通訊管理、遷移管理、預(yù)警管理等多個(gè)方面做了部署。
三個(gè)月下來,項(xiàng)目成功驗(yàn)收,倪克對(duì)這個(gè)環(huán)節(jié)的工作相當(dāng)滿意。存好公司咨詢部門撤出了項(xiàng)目組,不過離開之前再三叮囑陳默:“容災(zāi)成功的保障在于不斷循環(huán),在公司一定要形成制度,不斷強(qiáng)化,并根據(jù)新情況不斷演進(jìn)和更新。千萬不要讓它成為只看不用的東西?!标惸c(diǎn)頭答應(yīng)。
接下來,陳默倒也按照存好公司的套路做了幾件事:一是成立日常專門運(yùn)營(yíng)小組,二是規(guī)范流程,三是以季度為單位進(jìn)行不同災(zāi)難級(jí)別的日常演習(xí),四是把以上事項(xiàng)制度化。一年下來,泰坦公司果然平安無事。再后來,陳默由于業(yè)績(jī)赫赫,跳槽到另一家世界500強(qiáng)企業(yè)了。公司原運(yùn)維部門員工被抽調(diào)組成新的增值業(yè)務(wù)部門。
陳默走了以后,關(guān)于容災(zāi)的管理、演習(xí)和執(zhí)行方案逐漸被淡忘。再半年之后,大家也都想不起來了。生意忙啊,別的事情先靠邊站吧。再說,哪有那么多的不測(cè)風(fēng)云。
2006年8月4日,歷史上最強(qiáng)的臺(tái)風(fēng)“超級(jí)瑪麗”登陸C城?!俺?jí)瑪麗”帶來了巨大的海嘯,海浪有幾十米高,鋪天蓋地?fù)湎駽城。C城短短時(shí)間內(nèi)就成了暴風(fēng)雨中飄搖的稻草。就在這同時(shí),泰坦總部的信息中心因?yàn)槔子晏鞖馄鸹?,IT系統(tǒng)突然宕機(jī),員工們由于平時(shí)疏于防范,事發(fā)后亂成一團(tuán)??偛康娜私oC城災(zāi)備中心狂打電話,想啟動(dòng)異地災(zāi)備系統(tǒng)。但是,異地災(zāi)備系統(tǒng)再?zèng)]有回音。所有業(yè)務(wù)停滯,數(shù)據(jù)毀于一旦。
倪克馬上給存好公司打電話,吳憂只說了三句話,“容災(zāi)不是一勞永逸,沒有后期管理的容災(zāi)系統(tǒng)形同虛設(shè);世界上又少了一家公司;除了上帝,沒有人有辦法”。
Game Over!
鏈接:如何看待容災(zāi)的回報(bào)
一個(gè)容災(zāi)系統(tǒng),需要從軟件到硬件進(jìn)行多方面的投入。一個(gè)完整的容災(zāi)方案,大概要投資幾百萬,甚至上千萬元。對(duì)企業(yè)來說,花這筆錢是否值得呢?
這里有一個(gè)表格,是日用百貨業(yè)的系統(tǒng)可用性與宕機(jī)時(shí)間、年宕機(jī)損失和金融業(yè)年宕機(jī)損失之間的關(guān)系。
在美國(guó),如果某一家電信公司由于某種原因,業(yè)務(wù)需要中斷一小時(shí),即這一個(gè)小時(shí)不能打電話,那么用戶會(huì)馬上選擇別的電信公司,成為其他公司的用戶。因而,用戶對(duì)可用性的要求越來越高,宕機(jī)一小時(shí)的損失越來越大。
系統(tǒng)可用性 宕機(jī)時(shí)間 年宕機(jī)損失 金融業(yè)年宕機(jī)損失
記者手記:自建、共建,還是外包?
容災(zāi)是自建、共建,還是外包?這一直是用戶爭(zhēng)議的問題。泰坦公司把容災(zāi)系統(tǒng)外包給了存好公司。這一選擇對(duì)泰坦公司來說,很適合。
因?yàn)椋瑸?zāi)備中心需要投入大量的人力、物力及財(cái)力。自建、共建和外包三種建設(shè)方式各有利弊。自建方式具有投資巨大、建設(shè)周期長(zhǎng)、技術(shù)與實(shí)施難度大、管理與維護(hù)要求高、運(yùn)營(yíng)維護(hù)成本大等特點(diǎn),比較適合對(duì)風(fēng)險(xiǎn)控制要求高、資產(chǎn)規(guī)模大、技術(shù)與管理實(shí)力強(qiáng)的企業(yè)。
共建方式具有投資少、技術(shù)與管理難度大、人員組織困難、責(zé)任不易界定、合作模式要求高等特點(diǎn)。
而外包是用戶花錢購(gòu)買第三方的服務(wù),而不是自己企業(yè)內(nèi)部員工完成災(zāi)備任務(wù)。這種模式最突出的特點(diǎn)是用戶和IT企業(yè)各自能夠充分發(fā)揮自己的專業(yè)特長(zhǎng)。
泰坦并沒有雄厚的資金,也沒有專業(yè)的IT服務(wù)團(tuán)隊(duì),從自身應(yīng)用需求的角度來看,也沒有必要獨(dú)自建一個(gè)龐大的備份中心去應(yīng)付小概率的災(zāi)難。因此,外包方式對(duì)泰坦這樣的中等企業(yè)來說是可行的一種方式。
容災(zāi)是個(gè)必答題,只是要把握好時(shí)機(jī)。容災(zāi)又是個(gè)選擇題,在決定建設(shè)之后,要選擇合理的建設(shè)方式和建設(shè)方案,在節(jié)省開支的情況下,保證重要業(yè)務(wù)數(shù)據(jù)得到很好的災(zāi)備,能達(dá)到防災(zāi)于未然、未雨綢繆的目的。