近日,我們采訪了兩位經(jīng)驗豐富的大咖,試圖從博睿數(shù)據(jù)的視角窺探AIOps 的全貌。
關(guān)于AIOps 產(chǎn)品本身
就博睿數(shù)據(jù)而言,博睿數(shù)據(jù)的AIOps的核心是“數(shù)據(jù)+AI+產(chǎn)品+場景”四合一的綜合解決方案。在一體化運維、告警管理、故障定位、應急快恢等高頻運維場景中幫助用戶更高效、更準確的達成業(yè)務(wù)目標。
就其優(yōu)勢而言,主要有5個方面:
目前,博睿數(shù)據(jù)基于自研的大數(shù)據(jù)實時處理和分析平臺 Zeus做數(shù)據(jù)挖掘,在異常檢測、趨勢預測、告警收斂、事件分析等應用場景方面已實現(xiàn)產(chǎn)品化落地。
具體來說,異常檢測,主要應用于運維數(shù)據(jù)的無監(jiān)督異常發(fā)現(xiàn)環(huán)節(jié),不需要運維人員手工設(shè)置閾值即可做到異常的自主發(fā)現(xiàn),大幅節(jié)省了人力投入;
趨勢預測,主要應用于業(yè)務(wù)特性運維數(shù)據(jù)的預測場景,比如容量預測、訪問量預測、硬件缺陷預測等等,對于運維人員的預算編制、業(yè)務(wù)規(guī)劃和提前介入處置起到很大的參考作用;
告警收斂,主要應用于統(tǒng)一告警平臺的事件管理場景,運維人員不再需要面對大量的無效告警,只需要關(guān)注收斂后的少量故障,應急處置的效率和精準度有了大幅提升;
事件分析,主要應用于一體化運維平臺的問題管理場景,AI將指標、Trace、事件的異常信息匯聚到問題,從問題查找根因,從根因聯(lián)動通知、自動化等處置步驟,問題分析的效率和精準度得到大幅改善。
在AIOps實踐方面,博睿數(shù)據(jù)依托多年APM行業(yè)積累,已具備豐富的數(shù)據(jù)集合。依托IT運維監(jiān)控能力,利用大數(shù)據(jù)和機器學習技術(shù)持續(xù)構(gòu)建智能運維監(jiān)控能力。
2021年,博睿數(shù)據(jù)在國內(nèi)首次提出了“服務(wù)可達的數(shù)據(jù)鏈DNA”技術(shù)理念,D代表DEM(數(shù)字體驗管理),N代表NPM(網(wǎng)絡(luò)性能管理),A代表APM(應用性能管理),從而打通從代碼到用戶訪問的全過程,進一步釋放企業(yè)IT運維監(jiān)控管理所有分支領(lǐng)域DEM、APM、ITIM、NPM和智能運維管理的能力。
目前,博睿數(shù)據(jù)算法中臺 SwiftAI已賦能到新一代APM的Server產(chǎn)品、新一代的智能運維大數(shù)據(jù)平臺DataView、“雙模一體”智能應急中心OneAlert等,與博睿數(shù)據(jù)統(tǒng)一聯(lián)邦數(shù)據(jù)中臺 Zeus相輔相成,不斷落地智能異常檢測、趨勢預測、智能告警、事件分析等場景,助力云原生時代服務(wù)可達。
2022年5月20日,博睿數(shù)據(jù)正式推出了一體化智能可觀測平臺ONE,該平臺旨在建立一體化、智能化、面向業(yè)務(wù)與用戶體驗的統(tǒng)一運維平臺,助力企業(yè)提高數(shù)字化體驗,降低運維成本,提升工作效率,為數(shù)字化轉(zhuǎn)型賦能升級。同時,這也是業(yè)界第一個將所有運維監(jiān)控需求“All in ONE”的統(tǒng)一平臺。博睿數(shù)據(jù)的 AI 能力,比如告警收斂、根因分析、多維分析、影響分析等,也將在 ONE 平臺的觀測洞察、應急管理等模塊中逐步落地。
談及博睿數(shù)據(jù)AIOps未來的發(fā)展,賀安輝表示:“未來,博睿數(shù)據(jù)在AIOps 方面將在根因定位、影響分析、NLP、算法實驗室四個方面發(fā)力?!?/p>
同時,未來博睿數(shù)據(jù)也將繼續(xù)發(fā)展多模態(tài)數(shù)據(jù)聯(lián)邦“底座”和AI算法的廣度和深度,支持全程服務(wù)可觀測。
AIOps 未來已來
雖然AI技術(shù)給運維工作帶來的價值顯而易見,但需要明確的是AIOps 不是一個一蹴而就的實踐,而是一個長期演進的過程,需要不斷創(chuàng)新發(fā)展。
就當前國內(nèi)智能運維的環(huán)境而言,李驊宸認為AIOps還存在以下幾方面的挑戰(zhàn):
在他看來,博睿數(shù)據(jù)今后要在智能運維方面持續(xù)發(fā)力。
首先,要打破數(shù)據(jù)孤島,做DNA 數(shù)據(jù)的最大化融合,建立數(shù)據(jù)資產(chǎn)的統(tǒng)一管理倉庫,產(chǎn)生聯(lián)邦數(shù)據(jù)的次生價值。以博睿數(shù)據(jù)提出的數(shù)據(jù)鏈DNA 概念為例,AIOps是DNA中重要的一環(huán),可助力APM產(chǎn)品和數(shù)據(jù)實現(xiàn)端到端打通,讓DNA更加自動化和智能化。同時,DNA數(shù)據(jù)鏈也給AI提供場景和數(shù)據(jù)土壤,讓AI通過信息整合、特征關(guān)聯(lián)真正的跑出優(yōu)質(zhì)算法模型。
其次,要加強數(shù)據(jù)分析和數(shù)據(jù)挖掘,擴展AI產(chǎn)品能力,夯實算法基礎(chǔ)能力,讓AI支持輕量級的模塊化和產(chǎn)品化。在算法可解釋性和評價體系方面建立一套標準,引入不同的數(shù)據(jù)集進行數(shù)據(jù)加工分析,用真實故障注入的方式來不斷錘煉AIOps能力,在商業(yè)化輸出時能夠以近乎開箱即用、極低適配成本的方式實現(xiàn)價值的最大化輸出。
更為重要的是,AIOps本就是基于已有的運維數(shù)據(jù),并通過機器學習的方式來進一步解決自動化運維沒辦法解決的問題。企業(yè)實現(xiàn)AIOps的前提是建立起全面獲取IT數(shù)據(jù)的能力,這里的數(shù)據(jù)主要包括但不限于日志、指標和事件等。將這些數(shù)據(jù)輸送給AIOps平臺,為AIOps提供數(shù)據(jù)資產(chǎn),以進行整合的更高級別的分析和洞察。如果沒有這些大數(shù)據(jù)的支持,AIOps則是無源之水。所以對于企業(yè)來說,大數(shù)據(jù)采集工作至關(guān)重要。
兩位大咖對AIOps的未來發(fā)展充滿信心??傮w而言,中國市場足夠大,數(shù)據(jù)也足夠豐富,而在國家戰(zhàn)略和政策的支持下,傳統(tǒng)制造業(yè)正向智能創(chuàng)造逐步發(fā)展,發(fā)展的過程中必然會涉及大量數(shù)據(jù)處理,而這也是AI技術(shù)的強項,當前在運維領(lǐng)域,AI技術(shù)的應用還是剛剛起步,慢慢成熟,在未來的3-5年內(nèi),AI技術(shù)會廣泛應用到運維場景中,向自助式服務(wù)方向發(fā)展。
寫在最后
每一個產(chǎn)品最需要的是被市場認可。
在標準制定方面,2021年博睿數(shù)據(jù)獲信通院首批AIOps評估的異常檢測全面級,同年博睿數(shù)據(jù)作為信通院組織的AIOps標準工作小組成員,多項建議納入到規(guī)范標準。
在產(chǎn)學研方面,博睿數(shù)據(jù)也跟廈門大學成立聯(lián)合實驗室,開展機器學習、深度學習方面的合作。
在行業(yè)應用落地方面,博睿數(shù)據(jù)的AIOps解決方案已經(jīng)落地到銀行、保險、證券、教育、航空等行業(yè)中,如異常檢測場景、告警收斂場景、趨勢預測場景等,為客戶的數(shù)字化轉(zhuǎn)型加速賦能。