圖一:高可用性管理要素構(gòu)成
不同的技術(shù)和管理領(lǐng)域中的風(fēng)險(xiǎn)既符合疊加原理又符合短板原理。從最終使用者的角度來(lái)看,任何一個(gè)技術(shù)或者管理體系造成的停機(jī)時(shí)間都會(huì)被累加,而不會(huì)被區(qū)分原因。但是從系統(tǒng)建設(shè)管理的角度來(lái)看短板原理也十分明顯,如果一個(gè)系統(tǒng)每年會(huì)因?yàn)橥k娫驅(qū)е聨资畟€(gè)小時(shí)的停機(jī),那么投入大量成本來(lái)避免可能兩年發(fā)生一次,每次造成15分鐘停機(jī)的網(wǎng)絡(luò)風(fēng)險(xiǎn)無(wú)疑是不明智的。而各產(chǎn)品和設(shè)備廠商提出改進(jìn)可用性的方案往往都是從各自的技術(shù)領(lǐng)域出發(fā),既沒(méi)有統(tǒng)一標(biāo)準(zhǔn)也沒(méi)有通盤(pán)考慮,改進(jìn)方案往往也都是局部的,甚至在利益驅(qū)動(dòng)下缺乏客觀的基礎(chǔ)。
建立可用性建設(shè)或改進(jìn)目標(biāo),建立測(cè)量體系,并通盤(pán)考量各系統(tǒng)可用性等級(jí),按照對(duì)系統(tǒng)整體可用性影響的大小和費(fèi)效比、時(shí)效比綜合安排各系統(tǒng)改進(jìn)計(jì)劃和改進(jìn)方案,分步實(shí)施并進(jìn)行持續(xù)的監(jiān)控和改進(jìn),可以使IT系統(tǒng)的可用性穩(wěn)定一致的滿足于業(yè)務(wù)需求,而且可測(cè)量的可用性指標(biāo)還可以作為衡量IT管理團(tuán)隊(duì)服務(wù)水平和質(zhì)量的標(biāo)準(zhǔn)之一。
那么如何從整體上考慮并規(guī)劃IT系統(tǒng)的高可用性呢,筆者根據(jù)IT規(guī)劃的一般規(guī)律和高可用性的特點(diǎn)提出以下方法:
一、設(shè)定IT系統(tǒng)可用性目標(biāo)
IT系統(tǒng)的可用性必須遵從于IT系統(tǒng)最終用戶的業(yè)務(wù)要求,從這個(gè)角度來(lái)看,IT系統(tǒng)的可管理性和成本控制首先應(yīng)依從于最終用戶對(duì)于可用性的要求。
在需求調(diào)研過(guò)程中,應(yīng)充分認(rèn)識(shí)到不同業(yè)務(wù)功能的重要程度差異、不同業(yè)務(wù)功能中斷對(duì)機(jī)構(gòu)戰(zhàn)略目標(biāo)實(shí)現(xiàn)的影響程度、非IT替代手段的可行性和非計(jì)劃中斷的必然性、機(jī)構(gòu)本身承受意外事件傷害的能力等方面因素,獲取業(yè)務(wù)部門(mén)和服務(wù)對(duì)象的支持和理解。最終分析取得各系統(tǒng)的最大可容忍中斷時(shí)間。在分析過(guò)程中,應(yīng)充分考慮機(jī)構(gòu)在經(jīng)濟(jì)損失、聲譽(yù)損失和社會(huì)責(zé)任缺失等方面造成的損害和其承受能力,設(shè)定承受能力的閾值。機(jī)構(gòu)在經(jīng)濟(jì)方面、聲譽(yù)和市場(chǎng)方面社會(huì)責(zé)任和法規(guī)遵從方面的損失會(huì)隨中斷時(shí)間的延長(zhǎng)逐步擴(kuò)大,當(dāng)超過(guò)某一特定時(shí)間,各方面的累積損失將不可接受,會(huì)對(duì)機(jī)構(gòu)生存和戰(zhàn)略目標(biāo)達(dá)成構(gòu)成不可逆轉(zhuǎn)的影響,這個(gè)時(shí)間就是最大可容忍中斷時(shí)間。值得注意的是,最大可容忍中斷時(shí)間對(duì)不同的場(chǎng)景可能會(huì)有不同,一般而言不可抗力事件影響的公眾和市場(chǎng)容忍度較高,法律賠償方面影響較低,而人為責(zé)任事件公眾和市場(chǎng)容忍度較低,法律法規(guī)方面懲罰性措施也更嚴(yán)厲。
通過(guò)調(diào)研評(píng)估最終得出得到業(yè)務(wù)部門(mén)和最終用戶認(rèn)可的系統(tǒng)的可用性目標(biāo)=(約定服務(wù)時(shí)間-最大可容忍中斷時(shí)間)/約定服務(wù)時(shí)間*100%。
二、了解可用性保障水平的現(xiàn)狀
明確目標(biāo)之后,還應(yīng)該了解目前系統(tǒng)可用性水平的現(xiàn)狀,找出差距和不足。對(duì)于現(xiàn)狀的了解應(yīng)從兩個(gè)方面著手。一方面應(yīng)對(duì)目前的IT架構(gòu)和IT管理體系現(xiàn)狀進(jìn)行全面的了解和掌握(包括技術(shù)體系、邏輯關(guān)系、管理流程、管理制度、組織體系等)。為將來(lái)進(jìn)行針對(duì)性改建做好基礎(chǔ)準(zhǔn)備。另一方面應(yīng)充分了解目前IT系統(tǒng)的風(fēng)險(xiǎn)環(huán)境狀況,通過(guò)歷史事件統(tǒng)計(jì)、信息安全管理風(fēng)險(xiǎn)分析、基礎(chǔ)設(shè)施風(fēng)險(xiǎn)環(huán)境分析和IT架構(gòu)技術(shù)風(fēng)險(xiǎn)分析等,了解機(jī)構(gòu)信息系統(tǒng)面臨的威脅種類(lèi)和發(fā)生概率,了解機(jī)構(gòu)對(duì)不同威脅的防范措施的有效性,了解不同種類(lèi)風(fēng)險(xiǎn)發(fā)生對(duì)機(jī)構(gòu)的危害和影響程度等。最終獲取按照風(fēng)險(xiǎn)等級(jí)排列的威脅列表、針對(duì)已經(jīng)采取的防范措施有效性的評(píng)價(jià)列表,以及針對(duì)不同等級(jí)風(fēng)險(xiǎn)的處置方式建議等。
三、確定高可用建設(shè)和管理策略
可用性規(guī)劃策略的制定應(yīng)充分考慮現(xiàn)有系統(tǒng)的狀況和資源狀況,充分考慮機(jī)構(gòu)的業(yè)務(wù)目標(biāo)和發(fā)展計(jì)劃,充分考慮技術(shù)現(xiàn)狀和發(fā)展趨勢(shì),充分利用專(zhuān)業(yè)廠商的服務(wù)和資源共享,并結(jié)合IT整體規(guī)劃目標(biāo)制定IT系統(tǒng)可用性的實(shí)現(xiàn)和改進(jìn)策略。
可用性規(guī)劃的整體策略應(yīng)該包括:
四、設(shè)計(jì)IT系統(tǒng)高可用性改進(jìn)方案
IT系統(tǒng)可用性的改善和提高涉及技術(shù)和管理的各個(gè)領(lǐng)域,絕對(duì)不是一兩個(gè)單純的技術(shù)方案能夠?qū)崿F(xiàn)的。一般而言,可用性改進(jìn)的方案中應(yīng)至少包括:
管理體系改進(jìn)方案,包括:可用性規(guī)劃、執(zhí)行、檢查、改進(jìn)各環(huán)節(jié)的目標(biāo)、職責(zé)、流程和管理工具、管理方法,實(shí)現(xiàn)計(jì)劃、資源投入等,如果需要,根據(jù)策略要求管理體系中還應(yīng)包括災(zāi)備中心的管理體系整合。
技術(shù)體系改進(jìn)方案,包括:主機(jī)體系、網(wǎng)絡(luò)體系、存儲(chǔ)體系、應(yīng)用體系、安全監(jiān)控體系等各分子系統(tǒng)的改進(jìn)目標(biāo)、技術(shù)路線、資源獲取方式、成本估算等,如果需要還要根據(jù)策略要求規(guī)劃災(zāi)備中心的技術(shù)實(shí)現(xiàn)方案。
此外,根據(jù)實(shí)際情況可能還包括,機(jī)房基礎(chǔ)設(shè)施和服務(wù)資源獲取方案,信息安全管理體系改進(jìn)方案等。
設(shè)計(jì)方案完成后應(yīng)組織相關(guān)領(lǐng)域的專(zhuān)家對(duì)各方案的可行性、可管理性、技術(shù)成熟度、可擴(kuò)展性、可管理性、費(fèi)效比等進(jìn)行評(píng)估和修訂。
五、高可用改進(jìn)方案的分步實(shí)現(xiàn)
一般而言,可用性的改進(jìn)計(jì)劃應(yīng)根據(jù)時(shí)效比和費(fèi)效比排列優(yōu)先級(jí),根據(jù)方案設(shè)定分類(lèi)分階段招標(biāo),由專(zhuān)業(yè)廠商負(fù)責(zé)實(shí)施完成。對(duì)于復(fù)雜的可能需要多家專(zhuān)業(yè)廠商協(xié)作完成的綜合性項(xiàng)目,應(yīng)由熟悉整體規(guī)劃和項(xiàng)目管理專(zhuān)業(yè)技能的人員組建專(zhuān)業(yè)項(xiàng)目管理團(tuán)隊(duì),在整個(gè)項(xiàng)目周期中協(xié)調(diào)和管理整個(gè)實(shí)施過(guò)程,保證項(xiàng)目的實(shí)施質(zhì)量和實(shí)施周期。
六、IT系統(tǒng)高可用性的維護(hù)和改進(jìn)
IT系統(tǒng)高可用性目標(biāo)的實(shí)現(xiàn)不是一兩個(gè)項(xiàng)目能夠完全解決的,隨著業(yè)務(wù)的發(fā)展和技術(shù)的變革,IT系統(tǒng)的邏輯架構(gòu)和功能,數(shù)據(jù)和配置信息以及其所處的風(fēng)險(xiǎn)環(huán)境等都會(huì)處于不斷的變化當(dāng)中,必須建立起持續(xù)的監(jiān)控、改進(jìn)流程和相關(guān)的規(guī)范方法,才能夠保證系統(tǒng)的可用性目標(biāo)能夠得到保持并持續(xù)的改進(jìn)。
相關(guān)的維護(hù)和改進(jìn)工作至少應(yīng)包括:
高可用IT管理是一個(gè)復(fù)雜的系統(tǒng)工程,包含了IT架構(gòu)、基礎(chǔ)設(shè)施、災(zāi)備、安全、IT治理等各個(gè)不同的技術(shù)和管理領(lǐng)域,在每一個(gè)技術(shù)和管理領(lǐng)域中又都有其自身的知識(shí)體系和方法體系,本文無(wú)法窮舉,希望通過(guò)以上內(nèi)容對(duì)企業(yè)CIO在構(gòu)建高可用IT管理體系方面有所幫助,共同推進(jìn)高可用IT管理體系的發(fā)展。