中國光大銀行股份有限公司數(shù)據(jù)中心運維處處長 王崗先生 做ITSM Master優(yōu)秀案例分享

當前,金融業(yè)科技運維面臨著很多挑戰(zhàn),以銀行為例,由于整體經營環(huán)境的變化,銀行已經從最掙錢的行業(yè)變得不那么掙錢了,加之互聯(lián)網(wǎng)金融的沖擊等等,這對銀行業(yè)科技運維提出了新的命題:怎么樣在降低成本的同時,科技運維還能以更高的速度和效率投產、變更并控制風險?以及如何結合云計算,合理正確評估IT的價值?

長期以來,尤其是從數(shù)據(jù)大集中開始,金融業(yè)在IT方面逐年投入巨資,并通過流程、制度,形成了很好的IT風險管控的文化,但恰恰是這種文化,使得IT的投產周期非常遲鈍。

那么,在新的形勢下,科技運維要怎么應對?或者說怎么轉型,才能適應當前的新環(huán)境和需求?業(yè)務到底需要什么樣的IT?業(yè)務到底需要IT什么樣的服務?IT的成本是不是能夠說清楚?效率是不是得到有效的提升?

10多年來,銀行的IT在飛速發(fā)展,很多行都是幾十人,到了幾百人甚至更大的規(guī)模。但回過頭去思考,對于一個組織,IT的貢獻是什么?能夠控制風險,僅僅只是一部分,其實,IT對業(yè)務的質量,對成本的有效控制,對內部的高效的提升,這些都是要通盤考慮的。

王崗說:“光大銀行想走的一條路,就是從科技運維向科技運營轉型,從IT的支持者向服務的提供者、合作伙伴的轉型。IT要一個更均衡的發(fā)展?!?/p>

在這個體系下光大銀行提出了整體科技運行的模型,就是均衡的發(fā)展模型,基于成本、質量、效率、風險的一個模型,這個模型就是用一個雷達圖來去看運行的整體情況,最終與組織發(fā)展、組織的戰(zhàn)略達到匹配,實現(xiàn)質量的提升、風險的可控、成本的清晰和效率的提升。

以下為王崗演講實錄:

謝謝振鵬!不用英語講了,很有挑戰(zhàn)。雖然考試都是用英文,但是真正想把一個實踐講清楚還要用本地的語言。而且給大家一個信息,我們現(xiàn)在Master這個課程中文是可以過的。

下面來講一下我的第一個課程,這個課程不僅僅是ITSM Master里面的一個課題,這是我在今年的人行科技獎里面一個很重要的課題內容,也跟很多同業(yè)在交流。為什么會有這樣一個思考?其實這不僅僅是一個簡單的科技運維向科技運營轉型,其實這個話題很多年前大家都在說,比如說科技引領業(yè)務等等一系列的詞。

大家都在說我們要向科技運營去轉型,怎么樣去轉?其實這里面也有很多跟ITIL有關的內容。從實踐過程中,我們總結出來了四個詞,就是基于質量、風險、成本、效率的科技運營的研究。

看一下我今天講的內容,第一個,科技運維現(xiàn)在的一些挑戰(zhàn)。目前來說,首先講科技,其實我們要看我們的業(yè)務,尤其在金融行業(yè),整體經營環(huán)境,今年上半年整個銀行的利潤增速已經到個位數(shù)了,甚至很多的行都到了1%點幾,就是說大家公認的最掙錢的一個行業(yè)已經開始不掙錢了,其實可以想到我們的制造業(yè),包括我們很多的服務業(yè),現(xiàn)在整體的情況是什么樣的。

包括現(xiàn)在互聯(lián)網(wǎng)的沖擊,大家講到的P2P、余額寶,雖然這里面出現(xiàn)了很多問題,但是對我們傳統(tǒng)的金融行業(yè)造成了很多思維、經營上的沖擊。我記得大概是在2013年,我們行的一些高管們去了歐洲,發(fā)現(xiàn)當年匯豐銀行在2012、2013年對標的企業(yè)已經不是傳統(tǒng)的金融行業(yè)了,而是像Google這樣的互聯(lián)網(wǎng)企業(yè)。

互聯(lián)網(wǎng)會帶來什么?對我們的業(yè)務會帶來什么樣的變化?這幾年對我們帶來很多的沖擊,包括科技引領者IBM,《Bank3.0》,也提出了很多新的思考。

在整體大的業(yè)務背景下,其實業(yè)務對我們的要求是什么?說白了,第一個,要便宜,成本要低。對于銀行來說,這么多年整個的IT投資可以說非常非常龐大,每年幾十億的IT投資,到現(xiàn)在不掙錢了怎么辦?IT要更好的花錢,就是能夠說清你的成本在哪兒,成本發(fā)揮了什么價值。

第二個,互聯(lián)網(wǎng)的沖擊,對于傳統(tǒng)的IT最重要的是快速、高效,在傳統(tǒng)上我們的IT四平八穩(wěn),一點點投產、變更、控制風險的方式去做,那么快捷、高效怎么樣去實現(xiàn)?

第三個,價值體現(xiàn)。價值體現(xiàn)一直在討論一個問題,科技到底是不是直接創(chuàng)造了價值,我們總是想用金錢或者用貨幣去衡量科技創(chuàng)造價值,這里面和業(yè)務關聯(lián)的東西,如何說清楚你的價值,不僅僅是錢,包括客戶,包括市場,很多東西可以通過IT去做這種實現(xiàn)。

第二個層面,剛才很多人都講到了云。云是不是新技術?個人的思考,云不是新技術,只不過是業(yè)內的同志們都開始玩跨界,傳統(tǒng)上做服務器的廠商開始做網(wǎng)絡,做網(wǎng)絡的廠商開始做服務器,軟件的這些廠商,原來都是各自守著各自的領域,業(yè)務領域、工具領域,現(xiàn)在開始玩開源了。服務呢?其實服務比較慘,服務現(xiàn)在開始玩低價。

在整個體系上其實云帶來的沖擊是非常非常大的,但是它并不是一些新技術,很多的東西是對傳統(tǒng)東西的融合,給包括廠商,包括甲方的IT都帶來了很多的思考、很多的變化,我們傳統(tǒng)靠做項目這種方式去實現(xiàn)的,其實可能已經完全不適應在這種云的模式下繼續(xù)去運行。

我們也有很多的考慮,云不可能一步替代傳統(tǒng)的IT。在整個過程中一定是混合運營的模式,是我們一個長期的業(yè)態(tài),一定是傳統(tǒng)的IT和我們的云運行的模式是一種非常長期的業(yè)態(tài)。為什么?首先,我剛才講到了我們這種非常大的IT,龐大的投資,我們能不能變化?第二,我們現(xiàn)在整個服務的體系,我們業(yè)務和科技之間的關系能不能變化?這些其實都直接影響到了整個云在科技運行中的發(fā)展。

講完這兩個背景,讓我想起真正ITIL VR進入中國的時間,大概是在2002、2003年,其實ITIL開始進中國,中國領先的幾個國內的項目,當年中行和工行是最早開始做ITIL的,我也是2002、2003年開始為中行去做ITIL。其實有兩個時間點,大家會發(fā)現(xiàn)驚人的相似,第一個時間點,在2000年前后其實也是中國經濟開始復蘇的時候,1997年、1998年整個國企改革造成了大量的下崗,造成了整個經濟的放緩。同時那時候有一個標志性的事件,工行的數(shù)據(jù)大集中,帶來了整個科技運行和IT技術巨大的沖擊。

第二個時間點,大概是2016年、2017年的時間段,其實同樣是一個這樣的情況,整個經濟在下行,同時云技術,尤其是互聯(lián)網(wǎng)金融、互聯(lián)網(wǎng)服務在沖擊著傳統(tǒng)IT的運營模式。這時候其實我們的業(yè)務變化了,我們的技術環(huán)境變化了,我們的服務、我們的管理是不是應該發(fā)生變化。

這個前提下我們去思考金融行業(yè),囊括了金融行業(yè)很多IT發(fā)展的一些目標?,F(xiàn)在這個情況下,回顧我們整個金融IT,尤其是2000年數(shù)據(jù)大集中以后,大家首先想到的是風險,風險管控。而ITIL VR之所以在中國獲得了如此大的成功,正是因為大家看中了它的風險管控能力,流程是在整個風險管理體系下重要的一個環(huán)節(jié),也就是說傳統(tǒng)的風險管理是靠流程、靠制約、靠一些數(shù)據(jù)來去說話的,而這時候數(shù)據(jù)并不是關鍵的內容。在整個運行的業(yè)態(tài)下,風險變成了第一要務,其他的變成了大家相對忽略的內容,就是我們不太關心成本,所以2000年到現(xiàn)在大量的IT投資,重復的投資,不管是大型銀行、中型銀行、小的商行,都是在做大量的IT投資。

第二個,反應遲鈍。比如說大家都知道,其實很多銀行的投產時間窗,1個月的、3個月的,很多很多,做大量的風險管控,同時監(jiān)管也提出了很多風險的要求,對風險基本上一票否決的方式。所以整個在2000年以后到現(xiàn)在,銀行的IT業(yè)基本上是在風險管控的體系下。

業(yè)務到底需要什么樣的IT?業(yè)務到底需要IT什么樣的服務?我的成本是不是能夠說清楚,我的效率是不是得到有效的提升?整個10來年銀行的IT都是飛速發(fā)展,很多行都是幾十人,到了幾百人甚至更大的規(guī)模。真正回過頭來去思考,對于一個組織你的貢獻是什么?僅僅能夠控制風險只是一部分,其實你對業(yè)務的質量,你對成本的有效控制,你內部的高效,這些是要通盤去考慮。

我們想走的一條路,就是從科技運維向科技運營轉型,從IT的支持者向服務的提供者、合作伙伴的轉型,我們認為是要一個更均衡的發(fā)展。在這個體系下我們提出了整體科技運行的模型,就是我們均衡的發(fā)展模型,基于成本、質量、效率、風險這樣一個模型,其實也是用這個雷達圖來去看運行的整體情況,來最終與組織發(fā)展、組織的戰(zhàn)略達到匹配,實現(xiàn)質量的提升、風險可控、成本的清晰和效率的提升,達到這樣一個實際的效果。

在大的指導思想下,我們提出了一個很重要的觀點:IT服務指的是什么?

這個其實我們做了很多很多的爭論,尤其在數(shù)據(jù)中心,很多人認為是提供基礎設施、提供網(wǎng)絡服務等等,這些能夠處理事件、能夠提供變更、上線是你的服務。其實這塊我們首先來提出一個非常重要的東西,什么是服務。對于一個IT組織,我們認為所有的應用系統(tǒng)才是你的服務,你所有其他的內部服務應該要圍繞著整體的業(yè)務系統(tǒng)來去展開。

所以我們這樣四層的關系,第一層,就看你的業(yè)務,從你的成本上可以去看業(yè)務,從給你相關部門提供的服務上可以去看業(yè)務,可以從你的風險管控上看業(yè)務,從不同的視角上可以去看你的業(yè)務。第二個才是傳統(tǒng)上講到我們的服務,就是傳統(tǒng)技術服務的目錄,包括我們的技術支持,包括我們的綜合,包括應用的提供。下面是我們的管控層,管控層我們提出了很重要的一點,要清晰自己,就是怎么樣建立自己的配置管理,這里面不簡簡單單是配置管理的體系,其實包括了更復雜的目標。最后一層,其實就是我們的決策層,就是整體的指標,風險、質量、成本、效率,整體的指標。這是我們落地的框架,包括人員、流程、工具、活動等等內容,套在我們整體框架里面去實現(xiàn),把我們相關的流程都會最終落到我們整體的四個象限服務的體系下。

這是我們實際電子化落地的內容,包括我們的工具,也包括我們的相關流程,最重要的就是我們的指標體系,和我們的配置管理體系,其實這些都是來重建我們整體的管理體系和內容。

其實我們最核心的三個內容,第一個,就是我們整體的一個指標體系,對于我們整個指標體系,最終要去滿足的包括我們的監(jiān)管要求,包括我們的業(yè)務要求,包括最終的科技管理和整個組織管理的訴求,這些其實是我們建這樣一個指標體系核心的目標,最底下其實是我們所有的這些相關的數(shù)據(jù)。我們的數(shù)據(jù)來自于哪兒?其實在這里面,我們不再簡簡單單的單一去提流程的指標、單一去提我們的架構指標、單一去提我們的性能指標,我們是將所有整個IT運行的指標進行匯總,把之間的相互關系,流程和我們運行的指標、流程和架構的指標,等等所有相關的數(shù)據(jù)進行整合,最終落到四個象限,就是我們的質量、成本、風險、效率這四個象限上,來去看我們最終想要達到的一些相關的內容,包括我們質量管理的要求,像我們整個系統(tǒng)的健康度,包括人員的質量,人員是不是能勝任,包括運維的質量等等這些都要做一些指標,包括風險管理指標和成本管理指標和效率指標。

這里面舉一個簡單的例子,最重要的做指標體系過程中,怕無效,為什么指標會無效?是因為往往做指標和用指標的是一套人馬,往往考核流程經理的時候你的流程經理自己制定的指標,而且跟他的效益、跟他的工資、收入等等都會掛鉤,這個時候他的指標數(shù)據(jù)往往都是虛假的,而且通過整體數(shù)據(jù)全面的去看,不是用一兩個指標去看去體現(xiàn)。

比如我們在做知識管理的時候就有一個很有意思的指標,其實它跟知識管理沒有什么太大的關系,我們叫做二線夜間接聽率,是完全按照ITIL架構去建的,我們一、二線完全是分離的,我管的是一線的指標,還有二線的指標。我們有一個指標是二線夜間被呼率,我們非常希望二線處理很多事情,我們一線處理事情是靠知識和工具,這時候你的知識的有效,你的知識的貢獻度,大家原來都用這樣的指標去體現(xiàn),我們這時候用了一個二線夜間被呼率,因為夜間一般二線都不在,所有的事件處置都是需要一線去做的。二線的夜間被呼率,就能夠反映我現(xiàn)在的知識是不是有效,一線是不是有效的掌握了這些知識,來從客觀的角度來去分析我們整體指標的運行。

第二個核心,就是我們的配置管理。我們配置管理的這套體系其實不是傳統(tǒng)上的配置管理,包括很多工具,這里面用了大量相關的數(shù)據(jù),包括傳統(tǒng)原來像BMC、CMDB,我們用了一部分,實際上我們做配置管理的時候發(fā)現(xiàn)了很多很多的問題,我們在整體的思考是什么?是以業(yè)務視角,目前還沒有做到業(yè)務視角,目前可以做到以應用視角,以應用視角串接整體的IT資產,包括所有的服務器,包括網(wǎng)絡,包括機房等等相關的這些信息,同時包括大量的管理信息。

在這里面其實是有兩層,第一層是你的整體管理信息,我們的管理信息為了保證它的準確性,基本上都是用流程去做整體管控,第二層,其實是我們運行的這些資產的數(shù)據(jù),這些其實我們大部分都是自己開發(fā)的工具,保證能夠搜索到,然后用一些關鍵值把我們從應用系統(tǒng)到最終數(shù)據(jù)中心整體的環(huán)境來去打通,在這里面會有不同的一些內容,而這個CMDB在我們最近一次很大的變更里面起到關鍵的作用。

我們做了一件什么事情?可能幾年前沒有人敢想的,我們把我們所有數(shù)據(jù)中心的每一個機柜的網(wǎng)絡線路進行了梳理,而這個數(shù)據(jù)中心運行了多長時間?已經運行了14年,這個過程中靠我們這么一套信息,我們知道每個網(wǎng)絡機柜連了多少服務器,每個服務器是什么,我們能知道每個計算機柜里面有多少應用系統(tǒng),它的服務時間是什么,只有這樣的一整套數(shù)據(jù)才能夠去支撐你做這樣的一個巨大的變更,我們整體的變更耗時2個月,現(xiàn)在基本上已經做了2/3了,馬上應該做完了,原來都不敢去想象的一件事情。其實建一個機房很容易,真正去維護它是一件很難的事情,通過配比管理,是要清晰你整個IT運行環(huán)境是什么,同時為每個業(yè)務部門或者每個業(yè)務提供的整體服務資產是什么,就能夠計算出你整體的運算成本。

最終我們還是要有流程管理的框架,所有的流程管理其實跟我們ITIL的體系沒有本質區(qū)別,只不過是說,在座現(xiàn)在很多人是做服務的,很多是做咨詢的,大家傳統(tǒng)上更多是在實踐變更這樣的控制,我們還是去嘗試了包括流量、災備等等一些管控的流程,而且完全實現(xiàn)了相應的電子化。比如我們?yōu)膫涫欠浅7浅栏竦牧鞒蹋荒昵袚Q多少流程,每年切換的時候所有輔助工具要去配合什么,哪些團隊要去做相應的配合,我們整體的流程體系,我們把大家不經常去碰的,更多的是在一些制度層面的流程也去電子化了。

第二個層面我想說一說我們傳統(tǒng)的流程,我們的事件、我們的變更只是有原來說的這些內容就夠了嗎?遠遠不夠,尤其我們變更管理的整個體系,其實在ITIL V3里不知道大家是不是真正去關注過一些內容,可能大家更關注于變更流程本身。比如說你的計劃在整個變更中的計劃,就是整體生產中心的調度能力是什么,我們在整體去做這個事情的時候,其實我們每一年有一個叫做大變更流程,每年初的時候會把整體的大變更列出來,同時我會有很多的生產活動的一些大的計劃,包括我每年的災備演練,我每年有4次災備演練,整體機房的切換,包括我們重要設備的采購點,把他整體運行起來,你才可以做到整體變更計劃的一個體系。

還有一個,比如說評估,大家怎么樣去考慮這件事情,其實在我們整個體系里面,變更的評估是我們整體的變更核心,其他的其實并不重要,流程誰該批、誰該走,審批流程并不重要,整個體系里面我們建立了一套所有技術領域的評估體系,甚至我們現(xiàn)在還有一個業(yè)務領域,就是業(yè)務的評估,對一個上線、對一個投產相應的評估體系,所有的東西都會細節(jié)到每一個技術領域,比如數(shù)據(jù)庫、中間件包括安全等等這些技術領域,我們一共有12個域大概180多個指標來去做每一個細節(jié)相關的評估。再比如說驗證,這也是ITIL V3里講的獨立流程,可能一個投產、一個變更如何去做它的驗證,包括像我們現(xiàn)在監(jiān)控工具的進一步發(fā)展,其實我們就是一個驗證的工具,我們現(xiàn)在實現(xiàn)了所有系統(tǒng)的一套標準化驗證,而且我們下一步要做的是根據(jù)我們的場景來去做不同的驗證。比如說我早晨開門可以去驗證系統(tǒng)的運行,我變更完了可以去驗證關鍵組件的運行,這些內容其實是我們傳統(tǒng)流程里面要去做的事情。

整個體系大概就是這樣,后面我講過一些我們的實踐,就不在這里具體的去講了,跟大家去看一下,其實就包括指標的平臺,包括服務視角的配置管理平臺,包括整體的知識管理體系,怎么樣有效的利用知識,一、二線知識的轉換,包括SLA建立幾個域,評估相應的服務指標,根據(jù)成本、質量、效率、風險建立SLA的指標,包括容量流程怎么樣去做,我們容量是專門有不同的流程和相關的一些數(shù)據(jù)的預警。包括可用性也有相關的流程,風險度和健康度模型的建立。包括成本怎樣去定價,其實我們的成本想做兩件事情,第一件事情,資源的成本,通過CMDB已經做了資源成本的計算,第二個,其實我們是想做人力資本,其實成本主要包括這兩部分,一個是人力成本,一個是資源投入的成本。整體通過我們的流程整套體系能夠去估算我們所有人的工時,大概工時這樣的體系,而且這套內容也是應用到我們整體的考核里面去,來去看人員效率和相關工作的體現(xiàn)。

這是我們適度成本的分析模型,我們把所有的人員工時和體系建立起來的,起碼知道我做一個系統(tǒng)的日常運行是什么樣的,會對所有的人去做相關的分析,這是一個外包人員,就是我們外包人員的分析圖,我們每個月都會看我們外包人員的效率到底是怎么樣的,是不是能夠滿足我們整體的發(fā)展要求,會對外包人員做動態(tài)的改變。

最后是我們的軟硬提升,我們整體運維工作效率的一些內容,包括整體的自動化的體系。其實云的很多的內容,就是流程+自動化,更多的就是硬件、軟件,傳統(tǒng)范圍里面也是這個思路,我們傳統(tǒng)領域里面還是會大力的提升整體自動化的運行,不是沒有云就做不了自動化,不是沒有云就做不了標準化,其實兩條路是一起往前走的,最終會走到同一個焦點上去。

最底下這塊其實也是一個非常有特點的內容,就是我們的分級運維,我們真正的想把我們每一個今后交付的業(yè)務或者交付的業(yè)務系統(tǒng),能夠把它的等級和我的這個服務變成一個標準和規(guī)范化,甚至每上一個系統(tǒng)能夠直接的知道我的資源投入是什么,我的服務投入是什么,整體的這樣一個體系和效率。

內容就是這么多。最后講句感受,這里面所有講的內容都不是新內容,在ITIL V3都講過,風險其實ITIL V3講了風險管控,質量講了ISO體系,成本和效益在它的指標里面都講過,這里面做了這么多年,我覺得ITIL V3很多的編寫者,我其實也見過兩三個編寫者,他們真的是大師,他們才能夠配得起大師,他們在10年前看到了后面的內容,但是在真正的實踐過程中大家的思考、大家去看的路,或者跟你的環(huán)境有關,或跟你的位置有關,真的把這條路走下去,他會形成一套最佳的實踐。謝謝大家!

 

 

分享到

zhoub

相關推薦