圖1 實(shí)施災(zāi)備前的拓?fù)鋱D

圖2 實(shí)施災(zāi)備后的拓?fù)鋱D

在本方案中,采取了“分身大法”,將本來是群集的“售電營銷系統(tǒng)”化整為零。群集中的一臺(tái)服務(wù)器直連存儲(chǔ)柜,作為主數(shù)據(jù)服務(wù)器,用存儲(chǔ)柜的高性能 IO來保證對外服務(wù)的效率。群集中的另外一臺(tái)服務(wù)器分離出來添加所需硬盤(因?yàn)檗r(nóng)電的核心數(shù)據(jù)庫只有100GB左右,所以無需加太多硬盤,即使考慮到后期 的擴(kuò)容,1TB的數(shù)據(jù)就足夠5年以上使用)后作為異地的備份機(jī),這里的異地可以先是不同房間甚至不同機(jī)架的“異地”。這個(gè)意義是完全不一樣的,雖然容災(zāi)距 離不夠遠(yuǎn),但是數(shù)據(jù)分成了兩份,再不是放在一個(gè)籃子中的雞蛋。

構(gòu)架好基本結(jié)構(gòu)以后,在分離出來的主數(shù)據(jù)庫服務(wù)器和作為備份機(jī)的服務(wù)器上面分別部署我司(北京和力記易科技有限公司)的備特佳 (BitGuard)CDP容災(zāi)備份系統(tǒng)。以主站(售電營銷系統(tǒng)A)和從站(容災(zāi)備份系統(tǒng)B)之間雙備份型的模式進(jìn)行數(shù)據(jù)的實(shí)時(shí)備份。完全可以做到 RPO=0,保證數(shù)據(jù)數(shù)據(jù)的零丟失。與此同時(shí),從站配置接管主站的觸發(fā)條件,主站因?yàn)楦鞣N原因宕機(jī)時(shí),從站隨時(shí)轉(zhuǎn)成Active狀態(tài)完全接管主站的所有業(yè) 務(wù),等同于群集的高可用,不同的是有了獨(dú)立的兩份數(shù)據(jù)。更重要的一點(diǎn)是在備份機(jī)上存放了以事件為觸發(fā)的所有變化點(diǎn)時(shí)間戳和具體數(shù)據(jù),這樣就可以通過回退來 恢復(fù)和修復(fù)任意時(shí)間點(diǎn)的邏輯錯(cuò)誤。

用戶對這個(gè)方案很贊同,當(dāng)即模擬了環(huán)境進(jìn)行測試,測試結(jié)果相當(dāng)滿意。走完商務(wù)流程后,我司安排技術(shù)人員進(jìn)行了方案的實(shí)施和驗(yàn)收,用戶方非常滿意。

在2010年的年底,我司正在召開年度會(huì)議。當(dāng)時(shí)負(fù)責(zé)永州農(nóng)電的銷售經(jīng)理突然收到一條短信。一看內(nèi)容,首先一驚,是永州農(nóng)電的某位主任發(fā)來的,第一 句是:“服務(wù)器宕機(jī)啦,盤柜出了問題”。但緊接著不禁放心地笑了,因?yàn)榫o接著的后半句是:“虧了備特佳接管了業(yè)務(wù),我們在讀秒,只用了30秒,業(yè)務(wù)就恢復(fù) 了正常”。

作為一家提供專業(yè)產(chǎn)品和服務(wù)的公司,最高的榮譽(yù)就是用戶說,你們的東西管用了,幫了大忙。這一點(diǎn)在過去我們做到了,在未來我們會(huì)做得更好。

分享到

wangzhen

相關(guān)推薦