2.高可用性方案
上海熱線郵件系統(tǒng)是關(guān)鍵業(yè)務(wù)系統(tǒng),需要不間斷為客戶提供服務(wù)。即使發(fā)生短暫的業(yè)務(wù)中斷,也會(huì)導(dǎo)致難以估量的經(jīng)濟(jì)和名譽(yù)損失。然而, 由于系統(tǒng)磁盤,網(wǎng)卡等硬件故障,待人為誤操作或自然災(zāi)害導(dǎo)致系統(tǒng)服務(wù)的無法訪問, 為此,在滿足系統(tǒng)對(duì)關(guān)鍵數(shù)據(jù)備份的要求之外, Veritas公司還提供了高可靠性的方案.
上海熱線建立高可用的計(jì)算機(jī)處理系統(tǒng),首先在硬件上做到了各部件的冗余,三臺(tái)Sun E5500組成集群結(jié)構(gòu),使整個(gè)系統(tǒng)不存在單點(diǎn)故障, 三臺(tái)Sun 服務(wù)器連接共享外接存儲(chǔ)設(shè)備;將服務(wù)器上的兩個(gè)網(wǎng)口通過HUB等互連,實(shí)現(xiàn)服務(wù)器間冗余的心跳鏈路;最后,每臺(tái)服務(wù)器均有高速網(wǎng)口與Catalyst 5500連接,保證用戶對(duì)主機(jī)資源的冗余高效訪問。在此基礎(chǔ)上,每臺(tái)服務(wù)器各安裝一套VERITAS的Cluster Server軟件,組成多機(jī)集群高可用系統(tǒng)。VCS會(huì)在兩條心跳鏈路上傳輸高效的通信數(shù)據(jù)包,實(shí)時(shí)監(jiān)測其他主機(jī)系統(tǒng)和各種軟硬件資源的運(yùn)行情況,如Oracle進(jìn)程、網(wǎng)卡、IP、磁盤、文件系統(tǒng)等,當(dāng)任何一種資源失效時(shí),VCS即會(huì)按照預(yù)先定義的規(guī)則快速實(shí)行相應(yīng)的硬件或應(yīng)用切換。
為有效使用VCS, 上海熱線采用VERITAS Volume Manager(VxVM)、VERITAS File System(VxFS)和Quick I/O(QIO)軟件來對(duì)關(guān)鍵計(jì)算機(jī)系統(tǒng)進(jìn)行強(qiáng)化和改進(jìn),從而為整個(gè)系統(tǒng)的高可靠性和高性能打下結(jié)實(shí)的基礎(chǔ)。在此基礎(chǔ)上, 利用VCS進(jìn)行自動(dòng)化管理和使用,數(shù)據(jù)庫系統(tǒng)中三臺(tái)主機(jī)間的切換對(duì)用戶透明,故障發(fā)生時(shí),不需要人為干預(yù),而且切換的速度為秒級(jí),速度快,采用了統(tǒng)一的Java GUI界面, 配置和管理簡單方便.
VCS的管理流程比較簡單:
•當(dāng)一臺(tái)機(jī)器上的工作網(wǎng)卡發(fā)生故障時(shí),VCS會(huì)自動(dòng)地切換到另一塊網(wǎng)卡;
•當(dāng)一臺(tái)主機(jī)發(fā)生故障或關(guān)機(jī)時(shí),VCS會(huì)自動(dòng)地將其上的應(yīng)用切換到另一臺(tái)機(jī)器;
•當(dāng)應(yīng)用服務(wù)進(jìn)程非正常終止時(shí),VCS會(huì)自動(dòng)重起相關(guān)進(jìn)程,或?qū)⒎?wù)進(jìn)程切換到其他機(jī)器上
•當(dāng)系統(tǒng)需要進(jìn)行維護(hù)時(shí),可手工將應(yīng)用從一臺(tái)機(jī)器切換到其他機(jī)器。
VCS不僅可以實(shí)現(xiàn)系統(tǒng)級(jí)的服務(wù)器切換能力,而且提供強(qiáng)大的應(yīng)用級(jí)服務(wù)器切換能力,表現(xiàn)在對(duì)任意應(yīng)用可以進(jìn)行檢測如數(shù)據(jù)庫,當(dāng)一臺(tái)服務(wù)器的數(shù)據(jù)庫發(fā)生故障時(shí),系統(tǒng)便會(huì)自動(dòng)切換到另一臺(tái)服務(wù)器上的數(shù)據(jù)庫,由此服務(wù)器接管業(yè)務(wù),并且還可以分為不同的資源組切換到不同的服務(wù)器,而且切換的速度很快,這一點(diǎn)對(duì)于應(yīng)用是至關(guān)重要的。
3.容災(zāi)系統(tǒng)
高可用系統(tǒng)雖然能夠做到計(jì)算中心系統(tǒng)的高可用,但有一個(gè)問題,如果一些不可抗拒的因素如地震、雷擊等把整個(gè)中心的一些關(guān)鍵系統(tǒng)破壞了,還是會(huì)導(dǎo)致應(yīng)用系統(tǒng)的長時(shí)間中斷。而對(duì)于上海熱線郵件系統(tǒng)的24X7的關(guān)鍵業(yè)務(wù),任何原因的短時(shí)間停頓都是不允許的,因此,上海熱線在涼城建立了一個(gè)具有容災(zāi)功能的備份中心,當(dāng)計(jì)算中心發(fā)生故障時(shí),可由備份中心接管部分或所有的業(yè)務(wù)處理。
上海熱線首先構(gòu)建了涼城備份中心主機(jī)網(wǎng)絡(luò)存儲(chǔ)系統(tǒng),安裝了相應(yīng)的應(yīng)用系統(tǒng),這些可基本上與漕溪節(jié)點(diǎn)的環(huán)境一致.其次, 為保證遠(yuǎn)程數(shù)據(jù)同步復(fù)制的實(shí)現(xiàn), 兩個(gè)節(jié)點(diǎn)間通過DDN專線互連, 兩個(gè)節(jié)點(diǎn)之間采用VERITAS的優(yōu)秀的數(shù)據(jù)復(fù)制管理軟件Storage Relicator for Volume Manager(SRVM)。通過廣域網(wǎng)遠(yuǎn)程連接,SRVM可向遠(yuǎn)程備份系統(tǒng)同步進(jìn)行邏輯卷復(fù)制,確保系統(tǒng)數(shù)據(jù)的高度可用。SRVM采用可靠的連接和監(jiān)聽協(xié)議,保證遠(yuǎn)程備份站點(diǎn)與本地邏輯卷數(shù)據(jù)的一致性,為用戶關(guān)鍵應(yīng)用的災(zāi)難備份和恢復(fù)提供了有效的手段。該軟件能容忍網(wǎng)絡(luò)延遲:在同步模式下,若網(wǎng)絡(luò)發(fā)生堵塞,可自動(dòng)切換到異步模式,當(dāng)網(wǎng)絡(luò)恢復(fù)后,再重新同步.
為了能夠監(jiān)測應(yīng)用系統(tǒng)的運(yùn)行情況,并能夠在災(zāi)難發(fā)生時(shí)實(shí)現(xiàn)應(yīng)用系統(tǒng)從漕溪中心到備份中心的切換,上海熱線選用專門的VERITAS 的Global Cluster Manager廣域網(wǎng)集群管理軟件來實(shí)現(xiàn)多集群的管理和應(yīng)用系統(tǒng)的容災(zāi)。
該容災(zāi)方案的工作原理如下:
1.正常情況下,漕溪中心和涼城中心的系統(tǒng)均處于運(yùn)行狀態(tài),但Mail業(yè)務(wù)處理系統(tǒng)只在漕溪涼城中心運(yùn)行;同時(shí),業(yè)務(wù)系統(tǒng)對(duì)數(shù)據(jù)的任何修改,會(huì)實(shí)時(shí)同步地復(fù)制到?jīng)龀卿钕行?BR>
2.當(dāng)漕溪中心的某些部件發(fā)生故障,如進(jìn)程出錯(cuò)、內(nèi)存損壞等情況發(fā)生時(shí),產(chǎn)生故障的機(jī)器上的應(yīng)用系統(tǒng)會(huì)自動(dòng)地由VCS快速切換到漕溪中心的其他機(jī)器,整個(gè)系統(tǒng)正常運(yùn)行
3.當(dāng)災(zāi)難發(fā)生,導(dǎo)致漕溪中心整個(gè)系統(tǒng)癱瘓時(shí),Global Cluster Manager會(huì)馬上監(jiān)測到這種異常情況,及時(shí)向管理員發(fā)送各種警報(bào),并按照預(yù)定的規(guī)則在涼城中心啟動(dòng)整個(gè)業(yè)務(wù)應(yīng)用系統(tǒng)
4.漕溪中心的計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)修復(fù)后,SRVM可將涼城中心的當(dāng)前數(shù)據(jù)復(fù)制回漕溪中心,然后將應(yīng)用系統(tǒng)從涼城中心切換回漕溪中心,涼城中心的系統(tǒng)重新回到備份狀態(tài)。
這種系統(tǒng)結(jié)構(gòu),能很好應(yīng)付各種軟硬件故障、人為或自然災(zāi)害對(duì)計(jì)算機(jī)處理系統(tǒng)的影響,保護(hù)業(yè)務(wù)系統(tǒng)的不簡斷運(yùn)行,是一個(gè)真正具有容災(zāi)功能的高可用系統(tǒng),能夠保證上海熱線郵件系統(tǒng)的業(yè)務(wù)在任何情況下都能高效穩(wěn)定地運(yùn)行。通過使用SRVM和VCS軟件, 可以保證備份中心與漕溪數(shù)據(jù)中心的數(shù)據(jù)同步,數(shù)據(jù)中心與備份中心的應(yīng)用切換快速可靠,并可進(jìn)行自動(dòng)和手工切換,與高可用性方案有機(jī)集成,從單控制臺(tái)管理多個(gè)VCS集群系,實(shí)時(shí)監(jiān)測每個(gè)VCS Cluster的運(yùn)行狀況,并可管理修改每個(gè)Cluster的配置,可根據(jù)用戶應(yīng)用要求制定多種切換策略,使用與VCS一致的圖形界面,使系統(tǒng)的管理和維護(hù)非常簡單,當(dāng)某個(gè)地域發(fā)生故障或?yàn)?zāi)難而導(dǎo)致該地域的Cluster終止時(shí),GCM會(huì)馬上監(jiān)測到,并可根據(jù)策略自動(dòng)或手工快速地將應(yīng)用切換到遠(yuǎn)程的Cluster。配置和使用都及為方便.
三.應(yīng)用效果
現(xiàn)在上海熱線五期擴(kuò)容和異地容災(zāi)工程已經(jīng)完成. 新改造好的系統(tǒng)可以滿足服務(wù)發(fā)展的需要. 自系統(tǒng)投入運(yùn)行以來, 運(yùn)行正常, 系統(tǒng)性能良好, 達(dá)到了預(yù)期目標(biāo). 通過Veritas數(shù)據(jù)存儲(chǔ)解決方案,不但提高了數(shù)據(jù)的存儲(chǔ)性能, 系統(tǒng)可以達(dá)到7X24小時(shí)不間斷工作, 滿足了高可靠性的原則. 該方案的順利實(shí)施, 成功地解決了系統(tǒng)應(yīng)用數(shù)據(jù)量大, 數(shù)據(jù)安全和可靠性不高的問題,開拓了市場,產(chǎn)生了巨大的社會(huì)效益和經(jīng)濟(jì)效益.