為了保證郵件系統(tǒng)的持續(xù)穩(wěn)定高效,中國(guó)石油部署了郵件監(jiān)控系統(tǒng),實(shí)現(xiàn)了對(duì)郵件服務(wù)器、郵件應(yīng)用進(jìn)程等的監(jiān)控;部署了專業(yè)的網(wǎng)管系統(tǒng),實(shí)現(xiàn)了對(duì)企業(yè)網(wǎng)絡(luò)的監(jiān)控;部署了應(yīng)用協(xié)議監(jiān)控系統(tǒng),實(shí)現(xiàn)了對(duì)關(guān)鍵應(yīng)用協(xié)議,如SMTP、POP3、HTTP等的監(jiān)控。眾多IT監(jiān)控系統(tǒng)的部署,實(shí)現(xiàn)了對(duì)郵件系統(tǒng)的專業(yè)化、精細(xì)化管理,但是本文開始提出的五個(gè)問題,中國(guó)石油依然不得不面對(duì),為了解決上述問題,中國(guó)石油按照以下的過程進(jìn)行了基于業(yè)務(wù)服務(wù)管理的郵件系統(tǒng)運(yùn)維平臺(tái)的建設(shè)。
1)信息整合
第一步,對(duì)郵件系統(tǒng)相關(guān)的IT信息進(jìn)行整合。采用Novell提供的強(qiáng)大的數(shù)據(jù)集成技術(shù),從已經(jīng)部署的眾多IT監(jiān)控工具中捕獲IT信息,并集中到Novell的業(yè)務(wù)服務(wù)管理平臺(tái)。被集成的系統(tǒng)包括:上市和未上市的兩套郵件監(jiān)控系統(tǒng)、網(wǎng)管系統(tǒng)、協(xié)議監(jiān)控系統(tǒng)。被集中的數(shù)據(jù)包括:郵件服務(wù)器、應(yīng)用進(jìn)程的實(shí)時(shí)狀態(tài)信息和實(shí)時(shí)告警信息;網(wǎng)絡(luò)設(shè)備的實(shí)時(shí)狀態(tài)和實(shí)時(shí)告警信息;關(guān)鍵協(xié)議的實(shí)時(shí)狀態(tài);網(wǎng)絡(luò)鏈路、郵件服務(wù)器、應(yīng)用進(jìn)程的性能數(shù)據(jù)。
2)業(yè)務(wù)建模
第二步,在數(shù)據(jù)集中的技術(shù)上,進(jìn)行業(yè)務(wù)建模。
首先,從郵件系統(tǒng)入手,理清了郵件系統(tǒng)本身各個(gè)組件的結(jié)構(gòu)、作用,以及各組件間的關(guān)聯(lián)關(guān)系,這些組件包括BE、DC、FE、Cluster、Mail;從網(wǎng)絡(luò)入手,理清了郵件服務(wù)器與網(wǎng)絡(luò)設(shè)備之間的連接情況,關(guān)鍵網(wǎng)絡(luò)設(shè)備的作用;從管理入手,理清了郵件系統(tǒng)的組織結(jié)構(gòu)和管理區(qū)域及權(quán)限。
其次根據(jù)掌握的信息進(jìn)行建模。建模包括兩個(gè)方面,一是形成組件間的關(guān)聯(lián);二是在關(guān)鍵組件上部署邏輯算法。邏輯算法也是根據(jù)業(yè)務(wù)邏輯和IT管理規(guī)則制定的。邏輯算法的應(yīng)用,極大的提高了根源問題定位的效率和準(zhǔn)確性。以西南區(qū)域郵件系統(tǒng)為例,影響西南郵件的因素有三類:服務(wù)器,郵件應(yīng)用協(xié)議,關(guān)鍵鏈路。通常,當(dāng)連接某臺(tái)服務(wù)器的關(guān)鍵鏈路中斷時(shí),相應(yīng)的服務(wù)器及其上的協(xié)議也會(huì)顯示異常狀態(tài)。我們會(huì)看到大量告警節(jié)點(diǎn)和信息,無法判斷故障的根本原因(如圖1所示)。通過在關(guān)鍵點(diǎn)上設(shè)置邏輯算法,當(dāng)發(fā)生上述異常時(shí),只讓發(fā)生故障的關(guān)鍵鏈路節(jié)點(diǎn)變紅,而讓受之影響的服務(wù)器和協(xié)議節(jié)點(diǎn)出于靜默狀態(tài)(灰色顯示),從而使IT管理人員能夠直觀快速的判斷出故障的根源所在(如圖2)。
3)定制基于角色的業(yè)務(wù)視圖
第三步,在模型的基礎(chǔ)上,根據(jù)用戶的角色,定義直觀清晰的業(yè)務(wù)視圖(如圖3所示)。
基于業(yè)務(wù)服務(wù)管理的郵件系統(tǒng)運(yùn)維平臺(tái)的成功構(gòu)建,帶來了如下的好處:首先,將原來分散在四套IT監(jiān)控管理系統(tǒng)中信息集中在一起,提高了信息分析能力,降低了IT人員的工作負(fù)荷。其次,在郵件業(yè)務(wù)模型中的任何節(jié)點(diǎn),均可進(jìn)行根源問題分析和定位,提高了故障解決速度,也避免各系統(tǒng)之間的推委。第三,將具體的IT問題放到業(yè)務(wù)場(chǎng)景中進(jìn)行評(píng)量,使IT人員能夠更為準(zhǔn)確地在第一時(shí)間解決對(duì)企業(yè)業(yè)務(wù)最重要、最緊迫的IT問題。第四,通過建立多種業(yè)務(wù)監(jiān)控視圖,使監(jiān)控更為清晰和直觀,同時(shí)企業(yè)內(nèi)的非IT人員也能夠了解IT信息。
3業(yè)務(wù)服務(wù)管理的關(guān)鍵點(diǎn)
通過上述的業(yè)務(wù)服務(wù)管理實(shí)踐,我們可以發(fā)現(xiàn),數(shù)據(jù)整合和業(yè)務(wù)建模是實(shí)踐業(yè)務(wù)服務(wù)管理的兩個(gè)關(guān)鍵點(diǎn),同時(shí)也是兩個(gè)難點(diǎn)。
信息整合具有如此重要的地位,是因?yàn)樾畔⒌耐暾院蛯?shí)時(shí)性,以及信息集成的效率會(huì)影響到最終構(gòu)建的業(yè)務(wù)模型是否有效,進(jìn)而決定IT運(yùn)維的效率和效果。
業(yè)務(wù)建模是從業(yè)務(wù)出發(fā),將集中到一起的業(yè)務(wù)數(shù)據(jù)和IT數(shù)據(jù),根據(jù)他們之間的相互關(guān)系,以及業(yè)務(wù)邏輯、IT運(yùn)維規(guī)則等進(jìn)行組織,最終得到一個(gè)全面的、智能的業(yè)務(wù)模型。業(yè)務(wù)模型意義重大,通過業(yè)務(wù)模型,可以準(zhǔn)確評(píng)估任何一個(gè)IT 組件的故障影響范圍以及對(duì)相關(guān)業(yè)務(wù)的影響程度;可以快速準(zhǔn)確定位故障根源;還可以以板塊為視角、以項(xiàng)目為視角、以應(yīng)用為視角、以基礎(chǔ)設(shè)施為視角、以不同層次的管理者為視角快速建立多維度、多層次的監(jiān)控視圖。業(yè)務(wù)模型的完善也是一個(gè)循序漸進(jìn)的過程,不要指望模型能夠一次性完美建立。模型應(yīng)該伴隨業(yè)務(wù)及IT的變化而同步調(diào)整和完善。在建模過程中讓業(yè)務(wù)部門充分參與進(jìn)來也是建模能否成功的關(guān)鍵。