定期巡檢能及時(shí)發(fā)現(xiàn)系統(tǒng)的異常情況,避免事故的發(fā)生,但傳統(tǒng)私有云巡檢依靠人員每天按部就班的逐個(gè)去檢查服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等設(shè)備的狀況,或者從幾千條日志中找到有價(jià)值的內(nèi)容,耗時(shí)耗力,同時(shí)存在周期漫長(zhǎng)、可靠性差等弊端。相較于傳統(tǒng)的人工巡檢,智能巡檢對(duì)云平基礎(chǔ)設(shè)施進(jìn)行自動(dòng)巡檢,發(fā)現(xiàn)異常自動(dòng)告警,一鍵收集巡檢日志,實(shí)現(xiàn)巡檢全過(guò)程的智能化。
超大規(guī)模分布式云計(jì)算中心統(tǒng)一巡檢
云計(jì)算中心經(jīng)歷了規(guī)?;l(fā)展的階段后,目前正往分布式的方向發(fā)展,以整合各類(lèi)物理資源和虛擬資源,形成統(tǒng)一的邏輯資源池,有效提升云計(jì)算中心資源利用率和管理效率。在分布式架構(gòu)下,云計(jì)算中心應(yīng)用系統(tǒng)功能模塊分散部署,業(yè)務(wù)系統(tǒng)功能細(xì)分導(dǎo)致了版本多樣性,各模塊之間的調(diào)用關(guān)系復(fù)雜。傳統(tǒng)的私有云只能對(duì)分布在不同區(qū)域的單個(gè)資源池進(jìn)行單獨(dú)運(yùn)維,為每個(gè)資源池構(gòu)建一套運(yùn)維系統(tǒng),難以實(shí)現(xiàn)整個(gè)云平臺(tái)的一體化運(yùn)維?! ?/p>
易捷行云新一代私有云智能巡檢示意圖
易捷行云新一代私有云EasyStack ECS基于安全、穩(wěn)定、高效的新一代數(shù)據(jù)中心分布式云操作系統(tǒng),可實(shí)現(xiàn)超大規(guī)模云計(jì)算中心的智能統(tǒng)一運(yùn)維。首先,易捷行云將1000+家大中型企業(yè)客戶(hù)、數(shù)萬(wàn)節(jié)點(diǎn)規(guī)模云平臺(tái)的運(yùn)維經(jīng)驗(yàn)產(chǎn)品化,形成運(yùn)維知識(shí)庫(kù);之后通過(guò)事件網(wǎng)格服務(wù)自動(dòng)執(zhí)行巡檢等運(yùn)維動(dòng)作。事件網(wǎng)格服務(wù)是易捷行云新一代私有云的內(nèi)在能力,具有事件編排的能力,通過(guò)事件網(wǎng)格服務(wù),可通過(guò)API,在云服務(wù)與物理設(shè)備之間通過(guò)最有效的路徑,及時(shí)感知事件,動(dòng)態(tài)執(zhí)行運(yùn)維動(dòng)作,不受部署規(guī)模與部署形態(tài)的影響,幫助企業(yè)提升態(tài)勢(shì)感知能力和企業(yè)敏捷性。
巡檢全流程“零干預(yù)”,規(guī)避人為操作風(fēng)險(xiǎn)
傳統(tǒng)私有云的監(jiān)控管理、巡檢、日志等系統(tǒng)是分開(kāi)建設(shè)的,往往需要運(yùn)維人員的人工巡檢,手動(dòng)輸入巡檢日志。而易捷行云新一代私有云EasyStack ECS基于業(yè)務(wù)場(chǎng)景靈活定義運(yùn)維服務(wù)過(guò)程,由人工檢查升級(jí)為7×24無(wú)人自動(dòng)化巡檢,巡檢全程無(wú)人值守,規(guī)避人為操作風(fēng)險(xiǎn),實(shí)時(shí)跟蹤記錄云平臺(tái)運(yùn)行情況,實(shí)現(xiàn)對(duì)異常狀態(tài)的提前判斷和預(yù)期故障的預(yù)警,有效提高巡檢效率,保障業(yè)務(wù)安全穩(wěn)定運(yùn)行。
巡檢流程零干預(yù):360°深度感知云平臺(tái)運(yùn)行狀態(tài)
日常巡檢工作每天對(duì)云平臺(tái)進(jìn)行健康巡檢和對(duì)資源的性能指標(biāo)的異常巡檢。易捷行云新一代私有云ECS中內(nèi)嵌自動(dòng)巡檢腳本,提前定義巡檢任務(wù)和時(shí)間,在不影響客戶(hù)業(yè)務(wù)前提下,對(duì)物理資源、計(jì)算資源、存儲(chǔ)資源、網(wǎng)絡(luò)資源、云服務(wù)、操作系統(tǒng)等進(jìn)行全面的運(yùn)行狀態(tài)及容量狀態(tài)的自動(dòng)化檢測(cè)分析,幫助客戶(hù)360°深度感知云平臺(tái)運(yùn)行狀態(tài),使得管理人員可以做到遠(yuǎn)程巡視,及時(shí)發(fā)現(xiàn)、匯報(bào)、處理問(wèn)題,防患于未然,同時(shí)也為實(shí)時(shí)、異地處理告警創(chuàng)造可能。
日志管理零干預(yù):統(tǒng)一日志,巡檢報(bào)告實(shí)時(shí)/定時(shí)通知
運(yùn)維管理的日志數(shù)據(jù)可以很好地反映云平臺(tái)的運(yùn)行狀況,系統(tǒng)出現(xiàn)問(wèn)題的時(shí)候,可以通過(guò)反查日志進(jìn)行排障。易捷行云新一代私有云ECS實(shí)現(xiàn)了日志、監(jiān)控、告警的可視化、自動(dòng)化。提供從日志一鍵采集、日志存儲(chǔ)到日志檢索分析等多項(xiàng)服務(wù),幫助運(yùn)維人員全面、系統(tǒng)的分析系統(tǒng)故障和健康狀況,方便問(wèn)題快速定位和分析;同時(shí),通過(guò)提前配置告警郵箱,巡檢日志定時(shí)發(fā)送,協(xié)助用戶(hù)及時(shí)獲取異常通知,查詢(xún)異常原因?!?/p>
提前配置告警郵箱,巡檢日志定時(shí)發(fā)送
異常告警零干預(yù):異常自動(dòng)告警,故障可自愈
為了幫助企業(yè)更加量化的評(píng)估當(dāng)下告警管理能力,易捷行云新一代私有云ECS基于智能巡檢感知,對(duì)服務(wù)、存儲(chǔ)、主機(jī)和日志提供嚴(yán)重、警告和信息不同程度的自動(dòng)告警,并提供自動(dòng)修復(fù)和手動(dòng)告警處理方案;在發(fā)生故障或失控之前提供足夠的警告,實(shí)現(xiàn)主動(dòng)運(yùn)維,降低故障率;當(dāng)設(shè)備出現(xiàn)故障、損壞以及設(shè)備負(fù)載異常時(shí)觸發(fā)自動(dòng)告警,從故障發(fā)現(xiàn)、診斷到自愈整個(gè)流程自動(dòng)化實(shí)施,基本實(shí)現(xiàn)運(yùn)維保障的很少參與或無(wú)人參與,保證平臺(tái)安全可靠?!?/p>
提供不同程度自動(dòng)告警及處理方案
案例:某大型三甲醫(yī)院智能巡檢實(shí)現(xiàn)高效運(yùn)維
易捷行云新一代私有云ECS智能巡檢無(wú)技術(shù)門(mén)檻,可幫助企業(yè)主動(dòng)的找出可能影響系統(tǒng)可用性和性能降低的原因,發(fā)現(xiàn)可能會(huì)影響軟硬件嚴(yán)重故障,以及業(yè)務(wù)系統(tǒng)性能瓶頸等等,很大程度地提供用戶(hù)業(yè)務(wù)使用環(huán)境的可用性和穩(wěn)定性。
以某大型三甲醫(yī)院為例,該醫(yī)院依托易捷行云新一代私有云ECS構(gòu)建起醫(yī)院內(nèi)部私有云平臺(tái),通過(guò)加速故障診斷與運(yùn)維決策,對(duì)硬件、系統(tǒng)、服務(wù)、性能全面360°監(jiān)控,可視化多維細(xì)粒度監(jiān)控指標(biāo),自動(dòng)化運(yùn)維和深度分析,告警/自動(dòng)巡檢報(bào)告郵件通知等豐富的功能,有效地降低了運(yùn)維壓力,讓醫(yī)院更加專(zhuān)注于業(yè)務(wù)系統(tǒng)功能擴(kuò)展和服務(wù)優(yōu)化。
隨著企業(yè)IT管理規(guī)模日益擴(kuò)大,易捷行云新一代私有云ECS智能巡檢服務(wù)將大大提高運(yùn)維和巡檢人員的工作效率,增加運(yùn)維巡檢工作的便捷性與準(zhǔn)確性,以輕運(yùn)維的方式提高云平臺(tái)服務(wù)管理水平,幫助企業(yè)云平臺(tái)高可靠、高可用,加速企業(yè)數(shù)字化轉(zhuǎn)型。