多級冗余,數據為先。一是主機和磁盤陣列的冗余配置,主機的電源、內存、磁盤、光纖卡、網卡等都是冗余的,冗余的網卡、光纖卡要確保連接在不同的交換機上。二是機房、空調、電源的冗余,電源要配獨立的雙UPS和雙電源線接入。三是物理傳輸路由的冗余,冗余光纖傳輸要來自不同的物理路由。四是數據中心的冗余,三個中心互為災備,任何一個癱瘓,都可以由另外兩個數據中心接管。
多級預案,逐步升級。一級為業(yè)務應急預案,在業(yè)務本地運行模式下,系統(tǒng)出現故障時啟動,以實現對業(yè)務的影響最小或者沒有影響。通過業(yè)務部署、業(yè)務冗余處理模塊等多種方式實現。二級為本地接管預案,在單點故障或設備主動維護時,BOSS各個業(yè)務系統(tǒng)均實現本地HA(高可用性)接管,關鍵系統(tǒng)如營業(yè)、計費、漫游、接口都實現了自動接管。三級為容災切換預案,山東移動建設了負荷分擔、互為備份的三中心容災體系,數據庫層采用1對2的架構,采用“存儲底層同步復制+定時快照復制”技術,防止數據的物理或邏輯錯誤。四級為備份恢復系統(tǒng),它提供生產數據快照及磁帶備份,日常全備和增量備份均直接通過遠程SAN備份到異地中心,用于嚴重事件的應急恢復工作。從第一級到第四級預案,故障帶來的損害程度逐漸增大,處理時間也逐步增長,當然對業(yè)務的影響程度也逐漸增大。根據事件發(fā)生的性質和影響程度,優(yōu)先采用影響業(yè)務小的預案,并視情況逐步升級應急預案,目的是使事件對業(yè)務的影響減少到最低。
多級聯動,重點保障。建立完善的應急管理制度,才可以保證在遇到突發(fā)事件時,應急管理組織體系能夠有效運轉。經過幾年的實踐,山東移動建立了應急監(jiān)測預警機制、信息溝通機制、應急決策和協調機制、分級負責與響應機制。理順了業(yè)務與IT部門在應對突發(fā)事件中的關系、應急指揮和實施部門的關系、綜合應急部門和支持廠商的關系,建立了信息統(tǒng)一、管理對接、資源共享、協同有力的應急管理機制,調動各方面應急管理的積極性。一方面,梳通內部流程,打通省市間、賬務中心與其它部門間的通道;另一方面,梳通廠家支持流程,與支持廠商建立合作關系,從而構建了“省-市-合作伙伴”多級聯動的應急保障體系。
不同業(yè)務及系統(tǒng)的應急代價是完全不同的,同時帶來的應急手段差異也很大,需要以“最小的代價”進行系統(tǒng)的“最快應急”。對開戶、繳費、業(yè)務變更等關鍵業(yè)務,山東移動自主獨立開發(fā)了單獨的關鍵業(yè)務保障小系統(tǒng),獨立于BOSS系統(tǒng)外,同時和BOSS系統(tǒng)建立自動接口,確保緊急情況下可以啟用該系統(tǒng),進行最關鍵業(yè)務的辦理。在系統(tǒng)異常、版本上線、本地接管、容災切換的過程中,可以啟用關鍵業(yè)務保障子系統(tǒng),進而打造一個關鍵業(yè)務不間斷的BOSS系統(tǒng)。
立足業(yè)務 自主創(chuàng)新
山東移動BOSS系統(tǒng)的核心業(yè)務都是構建在EMC公司的設備和軟件之上,包括EMC Symmetrix DMX存儲陣列、SRDF/快照等。EMC在業(yè)務連續(xù)性保障方面也具有豐富的經驗。按照慣例,運營商一般將系統(tǒng)架構設計和建設主要交給廠商/系統(tǒng)集成商來主導,山東移動在BOSS應急體系建設中堅持自己主導,與廠商進行互動,充分利用廠商技術、產品、服務和經驗,進行自主創(chuàng)新,取得了良好的效果。
山東移動的“多中心業(yè)務容災”模式,就是在應急系統(tǒng)架構上的一個自主創(chuàng)新。具體做法是,將容災機房和生產機房混合部署。例如,A、B、C三個機房,每個機房都有完整的BOSS系統(tǒng),各自承擔一部分地市的業(yè)務。C機房最大,對A和B機房同時進行災備,任何一個機房出現嚴重問題,其它兩個機房能夠接管全部的業(yè)務。
“多中心業(yè)務容災”的關鍵在于,根據多年系統(tǒng)維護經驗,提出對業(yè)務處理進行縱向拆分。業(yè)務處理縱向拆分,就是山東移動根據對業(yè)務應用的思考,自己做出的決定,目的是將故障對客戶的影響減少到最低。這也是實現多中心良好運轉的前提。這樣,山東移動就將業(yè)務處理分布到三個數據中心,每個中心平時均有完整的BOSS系統(tǒng),承擔一個區(qū)的業(yè)務。當一個系統(tǒng)發(fā)生故障時,影響的只是該區(qū)域,而且可以切換到別的區(qū)域系統(tǒng)上應急處理。相比之下,橫向拆分,是指讓全省所有用戶運行一個系統(tǒng),例如全省的營業(yè)系統(tǒng)、全省的帳務系統(tǒng),當一個系統(tǒng)發(fā)生故障時,會影響到全省。
這樣做也有利于提高應急平臺的可用性。當業(yè)務處理系統(tǒng)處于“正常狀態(tài)”時,業(yè)務負載均衡,應急系統(tǒng)處理壓力不大,業(yè)務服務響應速度很快。而當某個數據中心的業(yè)務系統(tǒng)處于“應急狀態(tài)”時,只需要數據中心的相關業(yè)務資源進行應急切換即可,可以很快做出應急響應。
在具體拆分業(yè)務處理時,山東移動充分利用廠商資源,參照EMC的業(yè)務負載分析工具,對業(yè)務處理進行合理的拆分。
從技術上,“多中心業(yè)務容災”運用了虛擬化技術,將生產資源和容災資源放在統(tǒng)一的資源池里,在節(jié)假日或業(yè)務突發(fā)時,將容災資源動態(tài)分配給生產應用。這種做法,跟時下的熱門話題云計算不謀而合,山東公司的做法也是云計算成功落地的典范案例。
通過“資源動態(tài)管理”對應急管理手段進行創(chuàng)新,根據業(yè)務發(fā)展量和實際需要分配資源,為業(yè)務高峰、業(yè)務應急、重大賽事期間提供了臨時集中資源保障方案,可瞬間提升系統(tǒng)處理能力,從而支持了應急系統(tǒng)的功效。如遇業(yè)務高峰期,或應用軟件效率不高、HA接管等突發(fā)事件時,可以通過動態(tài)調整資源,保證系統(tǒng)運行穩(wěn)定。例如,2008年12月1日,一臺服務器CPU故障,造成系統(tǒng)宕機,營業(yè)一區(qū)數據庫B結點切換至A結點,但由于月初業(yè)務量大,營業(yè)一區(qū)A結點機器壓力非常大,通過將該結點所在的其它分區(qū)容災資源動態(tài)調整給該機器使用,確保了前臺系統(tǒng)的穩(wěn)定運行。在月底夜間進行帳務處理或生產報表時,也可以將其它分區(qū)的資源調劑給帳務系統(tǒng)使用。任務完成后,再返回給原系統(tǒng)。
通過發(fā)揮資源池的規(guī)模化效應,大大節(jié)省了資源。正常運轉時,10%的資源給容災。如果采用主備方式,需要將50%左右的資源給容災。橫向比較,全國的標準是,每增加一個用戶,業(yè)務支撐系統(tǒng)的建設投資平均增加20元左右,而山東移動只需要10元左右。
為關鍵業(yè)務開設“綠色應急通道”,是山東移動的另一項自主創(chuàng)新。BOSS系統(tǒng)的首要任務是服務好客戶,提高客戶滿意度,提高繳費、開機的時效,做到業(yè)務影響最小化。山東移動對6個場景的8類業(yè)務開辟了綠色應急通道,例如繳費、開機延遲達到30秒時,從業(yè)務層面自動打開綠色通道,先為用戶開機,系統(tǒng)恢復時再進行標準的流程處理。
目前,山東移動為BOSS應急體系申請了9項專利。
“功夫在詩外”
山東公司領導對業(yè)務支撐系統(tǒng)的高度重視,是BOSS應急系統(tǒng)得以加強的動力和保障。公司領導要求BOSS系統(tǒng)使用最好的設備,所有的關鍵環(huán)節(jié)都要求有備份設備。通過加大系統(tǒng)的投入來保證系統(tǒng)運行的可靠性和穩(wěn)定性,這也是實現公司“以客戶為中心”服務理念有力保障。
最后要強調的一點是,應急體系的建設不應該是狹義的。“功夫在詩外”,要強身健體,才能少生病,這也與中醫(yī)的“上醫(yī)治未病”理論一脈相承。建立完善的系統(tǒng),不出問題,少出問題,讓應急系統(tǒng)很少啟用,才是應急體系的根本。例如,山東移動的話單查詢系統(tǒng)和計費系統(tǒng)是分開的。我們這樣有利于減輕系統(tǒng)的負荷,讓計費系統(tǒng)輕裝前進,保證繳費、開機的時效,這也屬于應急體系的考慮范疇。山東移動還在BOSS系統(tǒng)上部署了EMC企業(yè)級閃盤,提高客戶資料的讀取速度,從而提高了整體系統(tǒng)的處理能力,這也屬于應急體系的考慮范疇。
此外,應急體系的演練也非常重要。山東移動每個季度都要進行一次演練。山東移動制定了6類應急場景,針對可實施場景進行了演練。每次演練都有大的收獲。演練分為多個級別,小的方面,比如,關掉一個交換機,檢查是否兩個網卡在同一交換機,關掉一個UPS,關掉一個HA節(jié)點等;大的方面,比如把整個機房某個業(yè)務停掉,通過演練不斷優(yōu)化。在演練中發(fā)現,通過容災導航軟件進行系統(tǒng)導航,可以提高應急響應速度及處理準確性。
山東移動應急體系正式建設以來,BOSS系統(tǒng)退服時間指標逐月下降,客戶投訴率指標下降明顯,BOSS系統(tǒng)客服滿意度指標上升明顯,話費信息獲取速度、繳費成功率、開機速度都大大提高,營業(yè)廳很少遇到故障,應急系統(tǒng)的貢獻明顯。根據業(yè)務部門內部評價、集團考核和外部客戶滿意度調查的結果,山東移動BOSS系統(tǒng)的滿意度處于全國前幾名的位置。系統(tǒng)每天的計劃外退服時長縮短了幾十倍,應急系統(tǒng)建設之前,每年的退服時長在幾百分鐘,現在,每年的退服時間達到100分鐘以內,用戶端幾乎感受不到系統(tǒng)停頓。每萬用戶的支撐類投訴比從0.4下降到0.05左右。繳費開機的速度也大大加快,由原來的幾分鐘達到目前的平均幾秒數量級。
希望山東移動的這些點滴經驗,能夠對IT同行們有所啟發(fā)。
作者簡介:崔可升,中國移動山東分公司帳務中心副主任。1995年開始從事業(yè)務支撐系統(tǒng)的開發(fā)和維護管理工作。16年時間,見證了階段,從郵電分營、尋呼分營、移動分拆、南北電信分離等多個時期的業(yè)務支撐系統(tǒng)建設。