OneAlert要如何消除IT運維人員的壓力

博睿數(shù)據(jù)產(chǎn)品經(jīng)理郝寧將OneAlert的價值點總結為“統(tǒng)一、標準、智能”。

“統(tǒng)一”指的是告警事件的統(tǒng)一接入。

博睿數(shù)據(jù)OneAlert對于常見的公有云,常見的監(jiān)控工具、自定義監(jiān)控工具以及博睿數(shù)據(jù)自研的監(jiān)控工具都能做統(tǒng)一接入。由于不同告警數(shù)據(jù)缺少統(tǒng)一標準,博睿數(shù)據(jù)將這些數(shù)據(jù)映射成統(tǒng)一的一套標準事件,最后實現(xiàn)統(tǒng)一接入。

“標準”指的是故障的標準化處理。

不同告警平臺都有各自的處理流程,處理過程缺乏標準,就會導致處理的效率低下,抬高運維人力成本,OneAlert平臺在對數(shù)據(jù)做了標準化處理后,還會提供統(tǒng)一的故障列表,當一線運維人員在處理告警時候,統(tǒng)一進行標準化處理。

從統(tǒng)一的告警展示方式,到故障通知方式,再到統(tǒng)一的分析和故障處理,全流程實現(xiàn)了標準化,實現(xiàn)了故障的全生命周期閉環(huán)管理,大大提升了一線運維人員和管理人員整體的工作效率。

“智能”:指的是告警的智能收斂、智能決策。

面對海量告警信息,原本都是用設置規(guī)則的方式,識別告警異常信息之間的規(guī)則,通過規(guī)則做降噪和收斂,而當數(shù)據(jù)量更多的時候,設置規(guī)則的方式也不再適用,于是,OneAlert就引入了AI算法,通過AI做智能收斂、智能決策。

這樣一來,運維人員不需要關注過多的告警信息,在智能決策能力的輔助下,使得故障處理更容易下手,這極大降低了整個運維成本,這是智能收斂、智能決策的價值。

如何真正解決運維行業(yè)普遍痛點?

博睿數(shù)據(jù)OneAlert要解決的問題其實是運維行業(yè)的通病,解決之道聽起來也都合情合理,博睿數(shù)據(jù)有什么底氣來解決這些行業(yè)的痛點呢?

首先,博睿數(shù)據(jù)結合在運維行業(yè)的多年積累,對主流運維監(jiān)控工具實現(xiàn)了全覆蓋,實現(xiàn)了多源異構數(shù)據(jù)統(tǒng)一標準化接入,用輕量級的工具,將多源異構數(shù)據(jù)統(tǒng)一成標準化數(shù)據(jù)接入到OneAlert平臺。

具體實現(xiàn)上,OneAlert把告警源、告警對象、告警指標、告警描述等信息,通過Webhook軌調(diào)、Restful API上報方式先集成進來,隨后,對數(shù)據(jù)進行過濾、解析、字段映射,映射成博睿數(shù)據(jù)OneAlert統(tǒng)一的標準信息。

在收集到數(shù)據(jù)后,博睿數(shù)據(jù)OneAlert支持用自定義的靈活配置,找出告警數(shù)據(jù)之間的關聯(lián)關系后對告警信息做收斂,在一定程度上也可以避免告警風暴,配合AI算法做智能收斂,再加上自定義標簽的功能,效果會進一步提高。

具體而言,OneAlert通過機器學習的文本相似算法找到標簽之間的關系模型,模型會把相似的告警,相同特征的告警和故障收斂到一起,這樣一來,當數(shù)據(jù)量達到一定程度的時候會更顯著。

當OneAlert運行一段時間,系統(tǒng)可以基于歷史告警信息關聯(lián)性,用AI算法來判斷具體的收斂行為,把具有相似性,關聯(lián)性的故障,收斂到一個故障里,這樣一來,運維人員只處理少量的故障就可以處理多個告警信息。

智能收斂能在用戶沒有創(chuàng)建自定義收斂規(guī)則的時候發(fā)揮作用,OneAlert內(nèi)置了許多默認的收斂規(guī)則,降低運維的復雜度和操作的難度。換言之,只要是用上了博睿數(shù)據(jù)的OneAlert,無論是告警的數(shù)量,還是故障的數(shù)量都有顯著的下降。

在實際落地部署中,OneAlert的部署方式非常靈活,既支持私有化部署,也支持以公有云SaaS的方式部署,考慮到國內(nèi)的企業(yè),特別是金融行業(yè)在安全方面的考慮,許多時候,都以私有云的方式進行部署。

在降噪、收斂的基礎上,OneAlert將開啟故障的標準化分析和處理。

最開始,在故障發(fā)生時候,為確保故障能被及時發(fā)現(xiàn),OneAlert設置了多種通知方式。

比如用短信、郵件、企業(yè)微信、釘釘?shù)确绞郊皶r通知到一線運維人員。對于特別嚴重的故障,OneAlert還支持通知上級領導,從而方便調(diào)動更多資源來解決問題。

故障處理時,能快速響應并且精準處置。

處理問題的時候,最需要搞清楚問題的本質(zhì),為此,博睿數(shù)據(jù)OneAlert提供了統(tǒng)一查看頁面,當運維人員關注到這些故障的時候,可以看到故障詳情,并做出分析,幫助運維人員處置這些信息。

在處置的過程當中,對處置的每一個階段做處置評論,最后達到故障關閉的狀態(tài)。故障從產(chǎn)生,到告警通知,然后到處置階段,到最后關閉告警,整個故障的生命周期就結束了。

故障處理后,還能做統(tǒng)計分析。

透過OneAlert,用戶可以查看,究竟哪些東西產(chǎn)生了哪些故障,提供許多針對運維的分析指標。同時,也有對于博睿數(shù)據(jù)OneAlert自身降噪比、收斂比等情況的數(shù)據(jù)分析,從而幫助運維人員發(fā)現(xiàn)和解決更多問題。

結束語

伴隨著IT系統(tǒng)復雜度的提升,IT運維人員的工作難度其實不可避免地增長,當服務不可用的時候,首先想到的都是運維人員來處理問題,直白點說,就是“背鍋”。

事實上,很多時候,有些問題可能是其他因素引起的,有許多因素都并不是運維人員能控制的,比如開發(fā)人員遺留的Bug,基礎設施的意外等等。

隨著資源規(guī)模的擴張,IT運維人員對于資源的掌控能力或者熟悉程度也不可避免地降低,發(fā)現(xiàn)和解決問題的難度系數(shù)在增大。

這時候,一個順手的工具就顯得尤為重要了,集中管理的工具能極大獲取洞察的效率,而標準化的操作長久來看,不僅能提高效率,還能讓故障的處理周期變得更可預期。

在機器學習興起的背景下,AI技術的引用能幫助運維人員從復雜的信息中獲得洞察,也是此類工具非常重要的發(fā)展方向,可以說,OneAlert順應了運維行業(yè)發(fā)展趨勢。

分享到

zhupb

相關推薦