真正把APM、SoC做好并不是容易的事情。從網(wǎng)絡(luò)流量進(jìn)行抓包,解碼到診斷、分析、告警,要求對于各種網(wǎng)絡(luò)協(xié)議了若指掌,能夠發(fā)現(xiàn)問題、解決問題,同時不影響業(yè)務(wù)系統(tǒng)的性能和穩(wěn)定性。
2016年,華青融天已經(jīng)把大數(shù)據(jù)、機(jī)器學(xué)習(xí)等技術(shù)應(yīng)用到了EZSonar、EZAccur中,通過行為檢測、機(jī)器學(xué)習(xí)等提高APM、SoC的IT運(yùn)營技術(shù)水平。
AIOps會不會“有價無市”?
隨著AI技術(shù)不斷升溫,AIOps這個概念被推到了前端。
據(jù)Gartner預(yù)測,到2019年,全球1/4的企業(yè)將策略性實(shí)施AIOps,戰(zhàn)略性利用AIOps解決運(yùn)維的問題,讓工程師生活的更加美好!
不知大家是否注意到Gartner的表述:“AIOps讓工程師生活的更加美好”,AI技術(shù)和運(yùn)維工程師的經(jīng)驗(yàn)進(jìn)行結(jié)合,從而抽象并固化出來一套完整運(yùn)維管理方法,的確可以大大提高效率,減緩運(yùn)維工程師的工作壓力。
從技術(shù)上說,AIOps 并不簡單,需要大量的實(shí)踐和沉淀。以快速故障分析和定位為例,銀行用戶往往會有幾千個業(yè)務(wù)系統(tǒng),每個業(yè)務(wù)系統(tǒng)故障觸發(fā)的條件和閾值各不相同。從運(yùn)維的角度,幾千業(yè)務(wù)應(yīng)用如何預(yù)警、如何展現(xiàn)?
采用AI方法進(jìn)行異常檢測時,運(yùn)維人員不用對業(yè)務(wù)路徑做任何告警設(shè)置,系統(tǒng)會自動實(shí)時檢測交易流量數(shù)據(jù),當(dāng)機(jī)器學(xué)習(xí)算法檢測到某個業(yè)務(wù)路徑的某個節(jié)點(diǎn)或連線上產(chǎn)生了異常值,就會拋出異常事件。比如:算法在檢測某個時間點(diǎn)上數(shù)據(jù)中心網(wǎng)銀交易服務(wù)器的【響應(yīng)時間】=500ms,而當(dāng)前時間點(diǎn)的【異常值】=0.934,這說明當(dāng)前服務(wù)器產(chǎn)生異常的概率非常高,需要及時對該設(shè)備進(jìn)行排查,防止設(shè)備崩潰或產(chǎn)生異常。
運(yùn)維可根據(jù)異常值的狀態(tài)具體設(shè)置告警條件,也能夠根據(jù)異常值在未達(dá)到警戒值之前就采取預(yù)防的措施避免事故的發(fā)生,所以AI方式的檢測可以實(shí)現(xiàn)智能預(yù)警的功能。
實(shí)際上,這就是一種細(xì)顆粒度告警功能。此外,在場景化儀表盤、快速定位問題和解決問題,以及視覺設(shè)計(jì),組建自動維護(hù)等環(huán)節(jié),AI技術(shù)的運(yùn)用能夠幫助運(yùn)維人員提高數(shù)據(jù)中心管理的效率。
這些新的技術(shù)應(yīng)用演進(jìn),以及功能性提高在新的EZSonar 4.0中得到了體驗(yàn),從而讓產(chǎn)品更加具有核心競爭力。
但是從商業(yè)的角度,AIOps應(yīng)該只是APM產(chǎn)品能力的升級,它是運(yùn)維人員不可或缺的工具,但是AIOps暫時不太可能替代運(yùn)維管理人員,此外,故障和異常畢竟還是小概率事件,所以從這個角度來說,AIOps暫時還不能完全取代SoC、APM產(chǎn)品功能,
不過已經(jīng)是當(dāng)前的前沿趨勢了,如果沒有AI功能的植入,肯定不能稱之為是智能化的IT運(yùn)維了。
小結(jié)
對于AIOps來說,AI的價值不應(yīng)該僅僅停留在運(yùn)維上,價值也不僅僅是降低運(yùn)維人員的勞動強(qiáng)度,對于AI來說,就有點(diǎn)大材小用了。無論是SoC,還是APM,實(shí)際上掌握和擁有全部業(yè)務(wù)數(shù)據(jù),如何發(fā)揮這些優(yōu)勢,支持業(yè)務(wù)創(chuàng)新,洞察市場、趨勢和發(fā)展,這才是AIOps未來的潛力市場所在!,
一句話,金融反欺詐、個性化金融服務(wù)等業(yè)務(wù)創(chuàng)新,與AIOps密切相關(guān),價值決定未來的市場空間,對嗎?!