日志異常預(yù)測(cè)

Watson AIOps 最新的日志異常檢測(cè)技術(shù)正在申請(qǐng)多項(xiàng)專利,它能夠從日志聚合工具(例如 Splunk、Humio、LogDNA 和 Logstash)中自動(dòng)解析 IT 應(yīng)用和基礎(chǔ)架構(gòu)日志,以便實(shí)時(shí)自動(dòng)檢測(cè)異常。這比基于閾值或錯(cuò)誤字符串匹配類型的傳統(tǒng)警報(bào)技術(shù)要快得多,因而大大縮短了診斷事件的平均時(shí)間。我們使用深度學(xué)習(xí)算法在日志解析過程中從日志中提取特征,并進(jìn)行異常預(yù)測(cè)。用戶不必設(shè)置靜態(tài)閾值或手動(dòng)規(guī)則來檢測(cè)異常。它會(huì)積極地讓 IT 運(yùn)維人員參與進(jìn)來,診斷異常并解決事件。此外,它會(huì)解釋通過您選擇的 IT 工具集揭示出的洞察,這樣 IT 運(yùn)維人員就可以在未來自動(dòng)解決相同類型的事件。

指標(biāo)異常預(yù)測(cè)

Watson AIOps 基于指標(biāo)的異常檢測(cè)技術(shù)可以分析來自各種系統(tǒng)(例如 New Relic、AppDynamics 和 SolarWinds)的指標(biāo)數(shù)據(jù),自動(dòng)了解企業(yè)中指標(biāo)的正常行為,并檢測(cè)其中的異常。它采用一套久經(jīng)驗(yàn)證的時(shí)間序列算法來捕獲季節(jié)因素和重要趨勢(shì),并執(zhí)行預(yù)測(cè)。

事件分組

事件表示 IT 運(yùn)營(yíng)環(huán)境中發(fā)生了值得注意的事情。例如,應(yīng)用不可用或磁盤容量已滿/空間不足等。事件分組和分類的目的是幫助 IT 運(yùn)營(yíng)管理人員減少干擾,讓他們集中精力解決一些需要及時(shí)關(guān)注的重要事件。Watson AIOps 使用多種算法(例如時(shí)間、空間和關(guān)聯(lián)規(guī)則挖掘)對(duì)從指標(biāo)、日志和憑單中檢測(cè)到的異常進(jìn)行分組,從而實(shí)現(xiàn)事件分組。

靜態(tài)和動(dòng)態(tài)拓?fù)涔芾?/p>

應(yīng)用和網(wǎng)絡(luò)拓?fù)涫侵敢环N映射或圖表,它顯示了企業(yè)中不同任務(wù)關(guān)鍵型應(yīng)用之間的連接情況。靜態(tài)拓?fù)涫侵敢环N基于以上構(gòu)建而構(gòu)建的映射,并部署了應(yīng)用和基礎(chǔ)架構(gòu)組件信息。反之,動(dòng)態(tài)拓?fù)涫侵敢环N動(dòng)態(tài)映射,隨著環(huán)境在運(yùn)行時(shí)發(fā)生變化,它可以捕獲資源及其關(guān)系,并提供近乎實(shí)時(shí)的相同可視性。

通過使用 Watson AIOps 中的拓?fù)涔芾砥?,您可以將?dāng)前拓?fù)渑c歷史拓?fù)溥M(jìn)行比較,從而回答“發(fā)生了什么事?”和“正在發(fā)生什么事?”之類的問題。它可以幫助您調(diào)查導(dǎo)致事件發(fā)生的詳細(xì)信息,并查看拓?fù)洌ê蜖顟B(tài))隨時(shí)間推移的變化。此外,可以在拓?fù)渖洗_定故障位置。

故障定位和爆炸半徑

實(shí)體提及是在異常日志、警報(bào)、憑單和事件中引用的資源名稱(例如,服務(wù)或應(yīng)用組件名稱、服務(wù)器名稱、服務(wù)器 IP 地址、pod ID、節(jié)點(diǎn) ID 等)。對(duì)事件進(jìn)行分組后,將會(huì)提取異常日志、指標(biāo)、警報(bào)和事件中的實(shí)體提及??梢允褂猛?fù)滟Y源來解析這些實(shí)體,以便找到問題,并將識(shí)別出的實(shí)體放在相應(yīng)的動(dòng)態(tài)拓?fù)鋵?shí)例上,這些實(shí)例與實(shí)體提及被發(fā)現(xiàn)的時(shí)間相匹配。通過遍歷應(yīng)用、基礎(chǔ)架構(gòu)和網(wǎng)絡(luò)層中的拓?fù)鋱D,我們能夠確定受影響的組件,稱為爆炸半徑。

事件解決

Watson AIOps 通過連接到 ServiceNow 之類的工具來提取和挖掘先前的事件憑單數(shù)據(jù),從而針對(duì)當(dāng)前診斷出的問題提供及時(shí)且相關(guān)的最佳行動(dòng)建議。當(dāng)前事件特征可以用于查詢有索引的憑單數(shù)據(jù),不僅可以搜索和檢索最重要的相關(guān)先前事件記錄,還可以從每條相關(guān)記錄中提取重要的實(shí)體與操作(又稱名詞加動(dòng)詞)短語(yǔ),以便 SRE 輕松快速地了解建議的操作。我們應(yīng)用各種自然語(yǔ)言處理技術(shù)來提取實(shí)體與操作短語(yǔ),包括基于規(guī)則的系統(tǒng)。

交付洞察和實(shí)施操作

在 Watson AIOps 中,上述所有洞察都是通過 ChatOps 和儀表板來提供。實(shí)時(shí)洞察通過 ChatOps 直接交付到 SRE 所在的工作地點(diǎn)。ChatOps 除了可以探索洞察證據(jù)外,還支持與其他協(xié)作者進(jìn)行交互,分享精選的事件解決建議。通過 ChatOps,SRE 可以啟動(dòng)日志、指標(biāo)和憑單監(jiān)控工具,了解更多詳細(xì)信息。同樣,SRE 還可以啟動(dòng)交互式儀表板,詳細(xì)探索事件、事件組、指標(biāo)異常和拓?fù)?。然后可以通過 Runbook 執(zhí)行來自動(dòng)運(yùn)行適用的操作/運(yùn)行手冊(cè)。

關(guān)于人工智能模型生命周期管理的說明

Watson AIOps 采用一組具有代表性的指標(biāo)、日志和憑單數(shù)據(jù),用于訓(xùn)練和構(gòu)建無監(jiān)督模型。這些模型被設(shè)置為通過使用環(huán)境中的最新數(shù)據(jù)來持續(xù)學(xué)習(xí),并根據(jù)用戶反饋進(jìn)行改進(jìn)。為了贏得信任,所有人工智能模型都具有透明和可解釋的特征,在 AI 預(yù)測(cè)和模型中提供信任和透明度,仍然是全球企業(yè)最關(guān)注的問題。

Watson AIOps 中的 AI 管道。

Watson AIOps 下一步將何去何從?

在下幾代 Watson AIOps 解決方案中,我們構(gòu)想了這樣一種 IT 運(yùn)營(yíng)環(huán)境,它不僅功能齊全,可觀察,具有自我意識(shí),而且實(shí)現(xiàn)了自動(dòng)和自主操作。AIOps 解決方案不僅能夠以被動(dòng)響應(yīng)模式幫助解決問題,還可以通過從一開始就設(shè)計(jì)“開發(fā)、安全和運(yùn)營(yíng) (DevSecOps)”生命周期活動(dòng),實(shí)現(xiàn)高效運(yùn)營(yíng),提前避免發(fā)生問題。例如,智能檢查和關(guān)口可以防止有風(fēng)險(xiǎn)的部署進(jìn)入生產(chǎn)環(huán)境,阻止未經(jīng)充分測(cè)試的代碼模塊以及帶有危險(xiǎn)安全漏洞的代碼進(jìn)入部署階段。我們迫不及待地想要塑造未來,邀您與我們一起踏上這段旅程。

分享到

崔歡歡

相關(guān)推薦