在信息時代,數(shù)據(jù)是企業(yè)創(chuàng)造商業(yè)價值的生產(chǎn)資料,數(shù)據(jù)的丟失將為企業(yè)帶來毀滅性的災(zāi)難。據(jù)Gartner Group的調(diào)查數(shù)據(jù)表明,在經(jīng)歷過大型災(zāi)難或長時間系統(tǒng)停運的公司中,有2/5的公司再也未恢復(fù)運行,而在其余的公司中,有1/3的公司在兩年內(nèi)破產(chǎn)。
有句古諺叫“別把雞蛋放在一個籃子里”?,F(xiàn)在的信息系統(tǒng),各種數(shù)據(jù)高度集中,“雞蛋”全放在一個籃里了。一旦出現(xiàn)突然停電、意外死機或者人為破壞,造成數(shù)據(jù)丟失是不可避免的。面對各種未可預(yù)知的災(zāi)難,越來越多的企業(yè)將容災(zāi)備份系統(tǒng)作為企業(yè)安全的保障。
容災(zāi)備份系統(tǒng)就是防止意外情況而采取的一種解決方案,其目的只有一個,那就是保證數(shù)據(jù)安全。9•11事件中,紐約世貿(mào)中心大樓倒下的同時,許多大公司的商務(wù)數(shù)據(jù)在瞬間“灰飛煙滅”,其價值比倒下的大樓價值高得多,但世貿(mào)中心最大的主顧摩根斯坦利公司因為擁有遠程容災(zāi)備份系統(tǒng),其業(yè)務(wù)數(shù)據(jù)完好無損!
二、山東聯(lián)通簡介
中國聯(lián)通有限公司山東分公司(以下簡稱山東聯(lián)通)是中國聯(lián)合通信有限公司(中國聯(lián)通)在山東省的分支機構(gòu),于1995年9月在濟南注冊成立,主要承擔聯(lián)通通信網(wǎng)在山東境內(nèi)的建設(shè)、經(jīng)營和管理。
經(jīng)過多年的發(fā)展,山東聯(lián)通的整體實力在不斷的增強,到目前為止,山東聯(lián)通是中國聯(lián)通最大的省級運營商之一,截至2002年,共有用戶400萬,并擁有一個大容量、高速率、覆蓋全省、連接國內(nèi)外的傳輸和移動通信網(wǎng)絡(luò)。山東聯(lián)通的通信網(wǎng)已實現(xiàn)數(shù)字化、智能化、自動化;長途干線傳輸網(wǎng)全部實現(xiàn)數(shù)字化、光纖化,正在向全光纖聯(lián)網(wǎng)過渡。網(wǎng)上交換、傳輸設(shè)備基本采用了國際最新、最先進的設(shè)備,在效能上具有極大的開放性和可擴充性。經(jīng)營的電信業(yè)務(wù)由成立之初的移動通信(GSM)、無線尋呼發(fā)展到目前的移動電話業(yè)務(wù)(GSM和CDMA)、長途電話業(yè)務(wù)、本地電話業(yè)務(wù)、數(shù)據(jù)通信業(yè)務(wù)、無線尋呼業(yè)務(wù)、互聯(lián)網(wǎng)業(yè)務(wù)、電信增值業(yè)務(wù)、以及與主營業(yè)務(wù)有關(guān)的技術(shù)咨詢和技術(shù)服務(wù)等其他電信業(yè)務(wù)。
為了更好地支持山東聯(lián)通業(yè)務(wù)的迅速發(fā)展,應(yīng)對業(yè)務(wù)環(huán)境的不斷變化,向用戶提供更好的服務(wù),山東聯(lián)通把原來離散的、針對不同業(yè)務(wù)和不同地區(qū)用戶的IT支持系統(tǒng)整合成為了一個統(tǒng)一的業(yè)務(wù)支持系統(tǒng),整合后的業(yè)務(wù)支持系統(tǒng)使山東聯(lián)通更好地發(fā)揮了作為一個提供全面服務(wù)的電信運營商的綜合競爭優(yōu)勢,更充分地發(fā)掘了用戶需求,更好地推廣了新業(yè)務(wù),降低了系統(tǒng)的運營成本。
但是由于山東聯(lián)通的業(yè)務(wù)全面地,高度依賴于這樣一個整合的支持系統(tǒng),所以要求該系統(tǒng)的可靠性必須達到一個更高的水平,系統(tǒng)必須具備容災(zāi)能力,因此,容災(zāi)備份系統(tǒng)成為山東聯(lián)通業(yè)務(wù)支撐系統(tǒng)必須建設(shè)的功能子系統(tǒng)。
三、山東聯(lián)通對容災(zāi)備份系統(tǒng)的要求
(1)分散分布,互為容災(zāi)
容災(zāi)備份系統(tǒng)的建設(shè)能夠大幅度提高業(yè)務(wù)支撐系統(tǒng)的可靠性,使系統(tǒng)對影響數(shù)據(jù)中心正常運行的嚴重故障或事故(包括自然災(zāi)害、環(huán)境故障、人為故障等)具有抗御能力。但是,嚴重事故是偶發(fā)性的,容災(zāi)系統(tǒng)抗御嚴重故障和事故的能力是建立在系統(tǒng)擁有一定程度冗余配置基礎(chǔ)之上的。因此,建設(shè)容災(zāi)系統(tǒng)的時候,事先不仔細規(guī)劃,簡單的冗余配置會在平時造成大量資源的巨大浪費,這種資源包括-機房環(huán)境、服務(wù)器設(shè)備、網(wǎng)絡(luò)設(shè)備、存儲資源、系統(tǒng)軟件和系統(tǒng)維護的人力資源投入。另外,容災(zāi)備份系統(tǒng)僅僅是業(yè)務(wù)支撐存儲系統(tǒng)中一個相對獨立的功能子系統(tǒng),由于這種相對的獨立性,使得業(yè)務(wù)支撐系統(tǒng)中的關(guān)鍵業(yè)務(wù)子系統(tǒng)可以互相利用對方作為容災(zāi)備份系統(tǒng)。
山東聯(lián)通擁有多個具備生產(chǎn)條件的機房設(shè)施,這些設(shè)施之間具有良好的光纖通信資源?;谏鲜龅目紤],山東聯(lián)通從整個數(shù)據(jù)中心建設(shè)的高度出發(fā),提出了“邏輯集中,地理分布,互為容災(zāi),負載均擔”的數(shù)據(jù)中心建設(shè)思路。它要求容災(zāi)備份系統(tǒng)能把核心業(yè)務(wù)支持系統(tǒng)分布到多個地理上相隔離的機房,然后相互進行容災(zāi)。在平時,所有的資源都是被充分利用的,而發(fā)生災(zāi)難時,子系統(tǒng)之間可以相互接替。
(2)完整業(yè)務(wù)恢復(fù)
當生產(chǎn)點的業(yè)務(wù)數(shù)據(jù)無法訪問時,容災(zāi)備份點保存有生產(chǎn)點業(yè)務(wù)數(shù)據(jù)的副本,這一數(shù)據(jù)副本能夠支持業(yè)務(wù)繼續(xù)在容災(zāi)備份點恢復(fù)運行,但是二者之間通常是有差異的,這個差異被稱作RPO(以時間度量)。RPO為零,說明生產(chǎn)電和容災(zāi)備份點之間的狀態(tài)時刻保持完全一致,RPO為兩小時,說明容災(zāi)備份點的狀態(tài)是生產(chǎn)點兩小時前的狀態(tài),此時如果生產(chǎn)點發(fā)生災(zāi)難,則容災(zāi)點將“丟失”災(zāi)難發(fā)生前兩小時的數(shù)據(jù)。雖然能根據(jù)對業(yè)務(wù)支持系統(tǒng)的全面分析,從業(yè)務(wù)系統(tǒng)的“外圍”系統(tǒng)中恢復(fù)數(shù)據(jù),但是這種“補充”恢復(fù)的手段通常會牽涉人工確認干預(yù),不但耗費大量的人力,而且還需要很長的時間,這樣長的時間是用戶不可接受的。
由于山東聯(lián)通每天均有大量的業(yè)務(wù)進行,因此,山東聯(lián)通要求容災(zāi)點的業(yè)務(wù)狀態(tài)和生產(chǎn)點必須保持足夠一致,如果用術(shù)語RTO來描述,就是RPO為0,即要做到業(yè)務(wù)狀態(tài)的完整恢復(fù)。
(3)快速、多向災(zāi)難切換
業(yè)務(wù)支撐系統(tǒng)要跟其子系統(tǒng)配合,才能夠支持整個業(yè)務(wù)系統(tǒng)的完整流程。因此,在業(yè)務(wù)支撐系統(tǒng)的容災(zāi)設(shè)計當中,需要考慮和業(yè)務(wù)支撐系統(tǒng)相關(guān)的所有其他外部子系統(tǒng),當災(zāi)難切換發(fā)生時,和容災(zāi)點系統(tǒng)的配合問題,包括需要連接的服務(wù)器網(wǎng)絡(luò)地址的更改和相應(yīng)的存儲管理軟件設(shè)置調(diào)整等。
考慮災(zāi)難切換,容災(zāi)備份建設(shè)么牽涉到數(shù)據(jù)復(fù)制模式、網(wǎng)絡(luò)連接方式、本地I/O性能、復(fù)制方向改變、復(fù)制端數(shù)據(jù)復(fù)用、復(fù)制端數(shù)據(jù)恢復(fù)時延、難易程度等問題。
由于在同步數(shù)據(jù)復(fù)制模式下,復(fù)制端的數(shù)據(jù)和生產(chǎn)端能保持完全一致。當操作切換到容災(zāi)點時,業(yè)務(wù)狀態(tài)和災(zāi)難發(fā)生時生產(chǎn)點的狀態(tài)完全一致,不再需要人工干預(yù)進行數(shù)據(jù)“補充”操作。信息系統(tǒng)部的技術(shù)力量可以完全從繁瑣的“數(shù)據(jù)”補充操作中解脫出來,將更多的精力投入故障分析、排除和生產(chǎn)點恢復(fù)的工作中。另外,在一定的應(yīng)用環(huán)境和網(wǎng)絡(luò)條件下,數(shù)據(jù)復(fù)制操作造成的寫I/O延遲增加很小,只占系統(tǒng)響應(yīng)時間的很小部分,從總體考慮,同步操作對應(yīng)用響應(yīng)時間造成的增加幾乎可以忽略不計。所以,山東聯(lián)通在容災(zāi)系統(tǒng)中選用了同步數(shù)據(jù)復(fù)制模式。
基于主機的復(fù)制軟件通常僅支持IP網(wǎng)絡(luò),而基于存儲的復(fù)制軟件通常支持多種網(wǎng)絡(luò)技術(shù),包括裸光纖(或稱黑光纖DarkFiber)、DWDM、ATM、IP等。網(wǎng)絡(luò)連接方式不同,提供的帶寬不同,網(wǎng)絡(luò)自身造成的性能損耗也不同。對黑光纖而言,沒有協(xié)議損耗;而且理論上講黑光纖自身的帶寬極高,其限制在于上層的傳輸手段。而IP技術(shù),其軟件協(xié)議的特性會造成很大的網(wǎng)絡(luò)性能損耗。從這一點上考慮,山東聯(lián)通傾向于采用基于存儲的復(fù)制軟件。
當災(zāi)難發(fā)生后,容災(zāi)點接替生產(chǎn)點恢復(fù)業(yè)務(wù)。當生產(chǎn)點故障排除后,通常需要將生產(chǎn)系統(tǒng)恢復(fù)回(Fail Back)原生產(chǎn)點,而容災(zāi)點繼續(xù)承擔容災(zāi)的角色。在這一過程中,需要改變通常的數(shù)據(jù)復(fù)制方向,即將容災(zāi)點的數(shù)據(jù)復(fù)制回生產(chǎn)點,這些數(shù)據(jù)是在容災(zāi)點運行業(yè)務(wù)時新增的數(shù)據(jù)。這種反向復(fù)制并非只在真正的災(zāi)難發(fā)生時使用,聯(lián)通平時的容災(zāi)演習(xí)過程中,這一功能也是必不可少的。
除此之外,山東聯(lián)通要求數(shù)據(jù)復(fù)制技術(shù)和應(yīng)用系統(tǒng)的界面清晰,也就是說在功能上,數(shù)據(jù)復(fù)制技術(shù)能靈活滿足各種應(yīng)用系統(tǒng),但不需要現(xiàn)有的和今后的應(yīng)用系統(tǒng)為數(shù)據(jù)復(fù)制功能實現(xiàn)做出更動;在性能上,它不干擾應(yīng)用系統(tǒng)的運行,占用主機系統(tǒng)資源。這樣的數(shù)據(jù)復(fù)制技術(shù),除了滿足基本的容災(zāi)建設(shè)的需要外,還能夠更好地滿足山東聯(lián)通建設(shè)“負載均擔,互為容災(zāi)”的系統(tǒng)構(gòu)想。
四、EMC的容災(zāi)備份方案
經(jīng)過反復(fù)比較,山東聯(lián)通認為基于EMC存儲系統(tǒng)的數(shù)據(jù)復(fù)制軟件SRDF(Symmetrix Remote Data Facility)軟件能夠很好地滿足容災(zāi)備份系統(tǒng)的要求,并采用SRDF軟件來建設(shè)山東聯(lián)通的第一期容災(zāi)項目,以實現(xiàn)容災(zāi)和資源共享。
上圖就是山東聯(lián)通第一期容災(zāi)建設(shè)的結(jié)構(gòu)示意,在該結(jié)構(gòu)中,SRDF軟件使分別位于兩個數(shù)據(jù)中心的計費系統(tǒng)和營業(yè)系統(tǒng)數(shù)據(jù)相互復(fù)制。兩套系統(tǒng)的主機資源在正常情況下分別運行各自的應(yīng)用系統(tǒng),在災(zāi)難發(fā)生時,可接替對端的系統(tǒng)繼續(xù)提供業(yè)務(wù)支持。
為了充分檢驗技術(shù)方案、產(chǎn)品性能和功能,山東聯(lián)通對該容災(zāi)系統(tǒng)進行了斷開一條鏈路、兩條鏈路全部斷開、機房災(zāi)難切換等容災(zāi)演習(xí)。結(jié)果表明,斷開一條鏈路,生產(chǎn)系統(tǒng)繼續(xù)運行,所有對R1的修改通過其余的鏈路同步到R2設(shè)備,R1和R2設(shè)備仍然處于同步狀態(tài)。兩條鏈路全部斷開對生產(chǎn)點的應(yīng)用系統(tǒng)沒有影響,所有對R1的修改標記在INVALID TRACK TABLE中,當鏈路恢復(fù)后,自動開始同步R1和R2設(shè)備,直到R1和R2設(shè)備處于同步狀態(tài)。在機房災(zāi)難切換中,一機房(災(zāi)難點)的應(yīng)用在二機房(容災(zāi)點)的主機上順利啟動,所有模擬災(zāi)難發(fā)生前的數(shù)據(jù)完全在二機房的應(yīng)用中可以訪問操作。當前端應(yīng)用連接到二機房后,業(yè)務(wù)可以恢復(fù)運行。而當一機房恢復(fù)后,系統(tǒng)可以在很短時間內(nèi)迅速切回。在模擬災(zāi)難期間在二機房操作的模擬業(yè)務(wù)數(shù)據(jù),系統(tǒng)切回一機房后可同樣訪問操作。在整個演習(xí)過程中,沒有觀察到復(fù)制延遲,F(xiàn)ailover期間累積的836MB業(yè)務(wù)數(shù)據(jù)量,1分鐘內(nèi)就可重新同步99%的數(shù)據(jù),此時原生產(chǎn)服務(wù)器即可接管應(yīng)用。
在實現(xiàn)硬件資源復(fù)用之后,為了進一步實現(xiàn)數(shù)據(jù)資源復(fù)用,使系統(tǒng)的投資回報更加增強,山東聯(lián)通進行了第二期項目,即容災(zāi)和數(shù)據(jù)復(fù)用。其結(jié)構(gòu)示意圖如下。
在山東聯(lián)通,數(shù)據(jù)爭用是系統(tǒng)運行當中的一個問題。比如,營業(yè)數(shù)據(jù)庫主要是支持營業(yè)系統(tǒng)運行,但是,各個地市分公司為了了解本地市的運營情況,通常需要查詢營業(yè)數(shù)據(jù)庫以獲取最新的運營統(tǒng)計數(shù)據(jù)。在容災(zāi)系統(tǒng)上線之前,各個地市通過直接訪問營業(yè)數(shù)據(jù)庫來實現(xiàn)上面的功能,這樣做一方面對營業(yè)數(shù)據(jù)庫帶來額外的負載,影響生產(chǎn)運行;另一方面,還存在安全隱患,威脅業(yè)務(wù)的穩(wěn)定運轉(zhuǎn)。
TimeFinder軟件具有的數(shù)據(jù)實時備份功能,完全將地市查詢和生產(chǎn)系統(tǒng)的數(shù)據(jù)相隔離,既保證生產(chǎn)性能不受干擾,又確保數(shù)據(jù)安全,同時為查詢應(yīng)用提供了更大的靈活性,這一應(yīng)用甚至可以更改原有數(shù)據(jù)。
五、尾語
EMC與中國聯(lián)通山東分公司的合作,是中國聯(lián)通公司首次采用該容災(zāi)系統(tǒng)來保證業(yè)務(wù)數(shù)據(jù)的正常運行。借助EMC公司先進的存儲技術(shù)和存儲產(chǎn)品,山東聯(lián)通實現(xiàn)了一個對生產(chǎn)系統(tǒng)影響最小的容災(zāi)系統(tǒng)。該容災(zāi)系統(tǒng)充分了利用現(xiàn)有服務(wù)器、網(wǎng)絡(luò)、機房環(huán)境、軟件和存儲資源,最大限度地減少了系統(tǒng)當中的冗余設(shè)計,最充分地利用了數(shù)據(jù)資源,提高投資回報水平。它建設(shè)的成功,為國內(nèi)擁有多個數(shù)據(jù)中心和它們之間有充足光纖資源的電信企業(yè),提供了容災(zāi)建設(shè)樣板。