“在這種邏輯下之下,IT部門就需要從企業(yè)的實(shí)際業(yè)務(wù)出發(fā),來分析后臺(tái)系統(tǒng)的運(yùn)行狀態(tài)。這是當(dāng)前CIO很真實(shí)的需求?!痹浦腔劭偛脛⒑闈嬖VDOIT記者。
系統(tǒng)黑匣子:數(shù)字化的轉(zhuǎn)型痛點(diǎn)
這可以理解為IT運(yùn)維層面的需求嗎?既是,也不是。2016年下半年,定位于APM的云智慧悄然推出業(yè)務(wù)運(yùn)維解決方案,它瞄準(zhǔn)的,就是企業(yè)數(shù)字化轉(zhuǎn)型背景下IT與業(yè)務(wù)深度結(jié)合所產(chǎn)生的新問題。
當(dāng)前,數(shù)字化已成為企業(yè)發(fā)展的重要方向,這種轉(zhuǎn)型帶來的IT與業(yè)務(wù)結(jié)合的新問題到底是什么?又怎么解?
要分析和解決新問題,有必要先看看老問題和傳統(tǒng)的解決方法。
過去,當(dāng)IT系統(tǒng)發(fā)生故障時(shí),會(huì)有很多監(jiān)控系統(tǒng)發(fā)出告警信息,但這些告警基本上都是針對(duì)IT本身的,并不關(guān)注故障對(duì)業(yè)務(wù)的影響。
隨著企業(yè)的數(shù)字化轉(zhuǎn)型,新興的線上業(yè)務(wù)與IT有了更為緊密的聯(lián)系。當(dāng)業(yè)務(wù)發(fā)生問題時(shí),CIO要迅速找到與問題關(guān)聯(lián)的IT環(huán)節(jié),老辦法會(huì)失靈——這是由于,企業(yè)數(shù)字化所建立的在線系統(tǒng),往往通過數(shù)據(jù)接口與運(yùn)行多年的成熟的IT系統(tǒng)建立聯(lián)系,但他們?cè)谶\(yùn)維層面的關(guān)聯(lián)還沒有打通。
這是傳統(tǒng)企業(yè)的CIO面臨的最大的挑戰(zhàn),很多系統(tǒng)運(yùn)行10年之久,開發(fā)商可能已經(jīng)不在,企業(yè)根本無(wú)法搞清楚系統(tǒng)內(nèi)部的結(jié)構(gòu)情況,拓?fù)浣Y(jié)構(gòu)也畫不出來,一個(gè)個(gè)系統(tǒng)就是一個(gè)個(gè)黑匣子。
“云智慧業(yè)務(wù)運(yùn)維要做的事情,就是解決這個(gè)數(shù)字化轉(zhuǎn)型的痛點(diǎn)。”劉洪濤說。
業(yè)務(wù)運(yùn)維:業(yè)務(wù)系統(tǒng)健康診斷專家
怎么解決?從業(yè)務(wù)運(yùn)維的產(chǎn)品理念上可以找到答案。
業(yè)務(wù)運(yùn)維的理念是:當(dāng)有用戶進(jìn)行某項(xiàng)業(yè)務(wù)時(shí),一定是訪問到了某個(gè)IT系統(tǒng)的某些功能模塊,然后跳轉(zhuǎn)到另一個(gè)系統(tǒng),最后得到想要的結(jié)果。任何一個(gè)交易,任何一個(gè)訪問行為,都是如此。
針對(duì)用戶訪問行為進(jìn)行監(jiān)測(cè),業(yè)務(wù)運(yùn)維利用大數(shù)據(jù)采集分析技術(shù)把每一次用戶訪問都打上標(biāo)簽,從而把用戶在系統(tǒng)里所有的訪問路徑拿出來,形成一條完整的業(yè)務(wù)邏輯線。當(dāng)有海量用戶訪問的時(shí)候,業(yè)務(wù)運(yùn)維就可以窮舉所有的可能,所有的用戶行為都可以拿出來。這樣,就能按業(yè)務(wù)邏輯重新梳理出業(yè)務(wù)系統(tǒng)的邏輯拓?fù)浣Y(jié)構(gòu)。
“這個(gè)過程特別重要,相當(dāng)于幫助企業(yè)把業(yè)務(wù)邏輯重新抽象出來。CIO可以通過業(yè)務(wù)拓?fù)渲庇^地看到整個(gè)系統(tǒng)的邏輯架構(gòu),以及不同系統(tǒng)之間的連接狀況。有了這些作為基礎(chǔ),業(yè)務(wù)運(yùn)維就可以抽取關(guān)鍵業(yè)務(wù)指標(biāo)?!眲⒑闈龔?qiáng)調(diào)。
以前文所述的該著名零售連鎖企業(yè)交易量下滑為例,“交易量”就是一個(gè)關(guān)鍵指標(biāo),企業(yè)只要對(duì)關(guān)鍵業(yè)務(wù)指標(biāo)進(jìn)行監(jiān)控,當(dāng)發(fā)生異常時(shí)就給出報(bào)警,然后從關(guān)鍵業(yè)務(wù)指標(biāo)開始查找,一直查到拓?fù)浣Y(jié)構(gòu)上,并進(jìn)一步溯到業(yè)務(wù)故障的根源問題。
通過這個(gè)邏輯,最后發(fā)現(xiàn)是服務(wù)器的一塊硬盤滿了。
硬盤滿了是一個(gè)很初級(jí)的IT事件,在運(yùn)維工程師那里屬于并不緊急的問題。但是,對(duì)于前端業(yè)務(wù)的影響確實(shí)很嚴(yán)重的,硬盤滿了,第一體驗(yàn)是服務(wù)器請(qǐng)求處理時(shí)間長(zhǎng)了,而該服務(wù)器正好是負(fù)責(zé)第三方支付,這就造成前端的支付響應(yīng)很慢。
對(duì)于這家企業(yè)的2300多家門店來說,用戶在同一個(gè)時(shí)間段刷卡有問題,業(yè)務(wù)量一下子就掉下來了,這是很嚴(yán)重的問題。所幸,該企業(yè)就是靠業(yè)務(wù)運(yùn)維的辦法,把過去認(rèn)為的一個(gè)很不重要的IT事件與業(yè)務(wù)進(jìn)行了關(guān)聯(lián),迅速找到原因并解決了問題。
互聯(lián)網(wǎng)化給傳統(tǒng)行業(yè)帶來的挑戰(zhàn)
看到這里,也許你會(huì)說,這貌似不是什么關(guān)鍵問題?的確,對(duì)于互聯(lián)網(wǎng)公司而言,由于其IT架構(gòu)從一開始就是分布式、松耦合,在線業(yè)務(wù)與系統(tǒng)的緊密關(guān)聯(lián),業(yè)務(wù)與IT本身就是一個(gè)整體。但是,對(duì)于轉(zhuǎn)型數(shù)字化的傳統(tǒng)行業(yè)用戶來說,則要復(fù)雜得多。
對(duì)于傳統(tǒng)企業(yè)而言,多年信息化建設(shè)所形成的煙囪式架構(gòu),造成了一個(gè)個(gè)信息孤島,這些企業(yè)的系統(tǒng)利用率、IT管理、IT治理等由于“私有化”而非常復(fù)雜。
CIO面臨的挑戰(zhàn),不在于互聯(lián)網(wǎng)本身。因?yàn)榻ㄒ粋€(gè)電商網(wǎng)站或者做一個(gè)前端APP很容易。但是,當(dāng)前端上了電商平臺(tái),后臺(tái)有一大批系統(tǒng)需要對(duì)接,比如庫(kù)存管理,財(cái)務(wù)系統(tǒng),供應(yīng)鏈系統(tǒng),物流系統(tǒng),客服系統(tǒng),還有會(huì)員管理等等。在銀行業(yè),這種對(duì)接的系統(tǒng)可能達(dá)數(shù)十個(gè)之多。
由于這些系統(tǒng)不是互聯(lián)網(wǎng)化的,技術(shù)上可以通過代碼、調(diào)用的方式把他們與前端系統(tǒng)對(duì)接,但是挑戰(zhàn)在于,當(dāng)前端的業(yè)務(wù)發(fā)生問題的時(shí)候,企業(yè)無(wú)法快速發(fā)現(xiàn)后端系統(tǒng)是什么狀態(tài)?哪些系統(tǒng)影響了業(yè)務(wù)的變化?能不能找到問題所在?另外,系統(tǒng)的效率怎么樣?
金融場(chǎng)景:傳統(tǒng)方法解決不了新問題
我們結(jié)合金融業(yè)的數(shù)字化轉(zhuǎn)型,來進(jìn)一步分析傳統(tǒng)行業(yè)互聯(lián)網(wǎng)化給IT帶來的影響。
在金融業(yè),有兩個(gè)體系非常成熟,首先是IT運(yùn)維體系,當(dāng)創(chuàng)新業(yè)務(wù)以互聯(lián)網(wǎng)架構(gòu)和邏輯展開時(shí),對(duì)IT運(yùn)維提出了很大的挑戰(zhàn)。劉洪濤對(duì)此的表達(dá)是,“銀行業(yè)被迫適應(yīng)這種變化。被迫進(jìn)行數(shù)字化轉(zhuǎn)型;被迫上新系統(tǒng);被迫改變過去的方法,用新的辦法來管新的系統(tǒng);被迫從用戶體驗(yàn)的角度出發(fā)來解決問題?!?/p>
其次,金融機(jī)構(gòu)的IT風(fēng)險(xiǎn)管控也很成熟,這也是金融業(yè)務(wù)創(chuàng)新速度一直被詬病的因素之一。存在即為合理,創(chuàng)新業(yè)務(wù)如何在既有IT風(fēng)險(xiǎn)管控框架之下滿足業(yè)務(wù)的要求,同樣是一個(gè)亟需解決的命題。
劉洪濤否定了兩者進(jìn)行“匹配”的思路:創(chuàng)新業(yè)務(wù)從業(yè)務(wù)設(shè)計(jì)到架構(gòu),與傳統(tǒng)業(yè)務(wù)都完全不同,很難向下兼容?!澳芷ヅ涞氖枪芾碓瓌t,但是管理方法絕對(duì)不能套用。傳統(tǒng)的IT風(fēng)險(xiǎn)審核機(jī)制,在互聯(lián)網(wǎng)領(lǐng)域是行不通的。因此,必須要迅速構(gòu)建新型業(yè)務(wù)的風(fēng)險(xiǎn)管控方法?!?/p>
對(duì)銀行來說,大機(jī)時(shí)代的業(yè)務(wù)邏輯依然存在,但時(shí)過境遷,它已不適用于強(qiáng)調(diào)用戶體驗(yàn)的創(chuàng)新業(yè)務(wù),后者的用戶容忍度很低,運(yùn)維管理的價(jià)值取向發(fā)生了變化。
傳統(tǒng)的方法論,解決不了新問題,必須要用新的思路來解決,這就需要大數(shù)據(jù)。而這,也是云智慧業(yè)務(wù)運(yùn)維的核心基礎(chǔ)。
新思路:運(yùn)維大數(shù)據(jù)
在前面的業(yè)務(wù)運(yùn)維理念的闡述中,我們注意到,它的核心是運(yùn)維大數(shù)據(jù)。
這是因?yàn)?,?dāng)企業(yè)IT發(fā)展到一定階段,系統(tǒng)的復(fù)雜度已不可同日而語(yǔ),如果還是依靠工程師用傳統(tǒng)運(yùn)維的思路去梳理,很難有效的解決問題。所以一定是靠大數(shù)據(jù)的辦法,把趨勢(shì)性、邏輯性的東西抽取出來,建立新的管理邏輯。
對(duì)于這個(gè)層面,云智慧的數(shù)據(jù)處理模塊DataHub能夠解決幾十種不同數(shù)據(jù)類型的處理問題,包括APM采集的監(jiān)控、性能、用戶行為、日志數(shù)據(jù)等,各種業(yè)務(wù)系統(tǒng)產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),都在DataHub引擎里進(jìn)行處理,這是業(yè)務(wù)運(yùn)維數(shù)據(jù)處理模塊的關(guān)鍵技術(shù)。
事實(shí)上,云智慧的業(yè)務(wù)運(yùn)維已經(jīng)不是一個(gè)簡(jiǎn)單的產(chǎn)品,它把監(jiān)控寶、透視寶、壓測(cè)寶的功能和運(yùn)維大數(shù)據(jù)分析能力都包括進(jìn)去了,提供了一個(gè)完整的解決方案。
對(duì)于CIO而言,首先,業(yè)務(wù)運(yùn)維的前端,強(qiáng)調(diào)的是一個(gè)很好的界面,解決業(yè)務(wù)的實(shí)時(shí)可視,從底層到上層,從后端到前端,第一時(shí)間發(fā)現(xiàn)系統(tǒng)的運(yùn)行狀態(tài)是否健康;第二,CIO關(guān)心的所有關(guān)鍵指標(biāo),包括IT指標(biāo)、業(yè)務(wù)指標(biāo)都抽取出來實(shí)時(shí)可視,有問題實(shí)時(shí)告警,形成一個(gè)監(jiān)控平臺(tái);第三,支撐平臺(tái)的解決方案,有用戶體驗(yàn)?zāi)K,基礎(chǔ)監(jiān)控模塊,故障分析模塊,數(shù)據(jù)采集、分析,業(yè)務(wù)分析,容量規(guī)劃、壓力測(cè)試,用戶行為分析等等。
線上業(yè)務(wù)的根本在于用戶體驗(yàn),而用戶體驗(yàn)除了前端界面的友好,很大程度上取決于產(chǎn)品的易用性,這與系統(tǒng)性能有緊密關(guān)聯(lián)。當(dāng)CIO重點(diǎn)關(guān)注業(yè)務(wù)時(shí),他思考的不僅僅是不出故障,而是怎么支撐業(yè)務(wù)甚至引領(lǐng)業(yè)務(wù),能否通過系統(tǒng)的持續(xù)優(yōu)化來改善業(yè)務(wù)。
業(yè)務(wù)運(yùn)維所要做的,就是提高整個(gè)系統(tǒng)的運(yùn)行效能并進(jìn)行持續(xù)的改善。它通過檢測(cè)用戶體驗(yàn)的改善,來優(yōu)化系統(tǒng)的效率指標(biāo),用戶體驗(yàn)上升了,業(yè)務(wù)水平就上升了。這是來自互聯(lián)網(wǎng)的邏輯,既是CIO非常看重的一點(diǎn),也是CIO對(duì)業(yè)務(wù)的貢獻(xiàn)中很重要的一點(diǎn)。
互聯(lián)網(wǎng)邏輯+傳統(tǒng)行業(yè)的價(jià)值之旅
“我們最終要改善的,叫做業(yè)務(wù)效能?!眲⒑闈f。
業(yè)務(wù)效能的核心,并不關(guān)心前端的商品,而是關(guān)心每一件商品所消耗的系統(tǒng)資源,以及系統(tǒng)能支持多少商品的銷售、故障率能不能降下來。從頭到尾,互聯(lián)網(wǎng)公司都是這么做的。
當(dāng)傳統(tǒng)企業(yè)進(jìn)行數(shù)字化轉(zhuǎn)型時(shí),CIO面臨的最大的難題是過去10年構(gòu)建的系統(tǒng)怎么辦,推倒重來?絕不可能!業(yè)務(wù)運(yùn)維,其實(shí)是把互聯(lián)網(wǎng)領(lǐng)域相對(duì)比較成熟的框架應(yīng)用到了傳統(tǒng)IT中,幫助客戶進(jìn)行數(shù)字化轉(zhuǎn)型。
縱觀整個(gè)行業(yè)也許我們能發(fā)現(xiàn),一些創(chuàng)新型的企業(yè)級(jí)IT公司,目前的發(fā)展路徑就兩個(gè):一個(gè)是看最前沿的公司比如亞馬遜、微軟、阿里,他們做什么,大家跟著學(xué),爭(zhēng)取做得更好,然后把產(chǎn)品和服務(wù)賣給這些前沿的公司;第二個(gè)路徑,企業(yè)如果在互聯(lián)網(wǎng)領(lǐng)域積累了很好的技術(shù),那么就掉轉(zhuǎn)頭來,幫助傳統(tǒng)企業(yè)轉(zhuǎn)型,因?yàn)檫@是一個(gè)更大的藍(lán)海。
云智慧選擇了后者。
“我們認(rèn)為,互聯(lián)網(wǎng)行業(yè)的技術(shù)發(fā)展比傳統(tǒng)IT大概領(lǐng)先10年左右,這10年的差距,就是巨大的商業(yè)價(jià)值。我們把在互聯(lián)網(wǎng)領(lǐng)域積累的經(jīng)驗(yàn)和技術(shù)做成產(chǎn)品和服務(wù),幫助傳統(tǒng)企業(yè)做轉(zhuǎn)型。這就是云智慧的商業(yè)價(jià)值所在?!眲⒑闈缡钦f。