體系化運維平臺分層架構

從“質量、成本、效率、安全”四個維度出發(fā)看運維本質相關工作,運維除了要搭平臺、建規(guī)范、做標準,還要用自動理念提升效率,用數(shù)據(jù)驅動測試/開發(fā)/運維,用智能手段提前發(fā)現(xiàn)/預測風險問題等。這些可以看成是方法論。如何能從理論快速獲得一套體系化、工程化、產(chǎn)品化的能力實踐,去支撐滿足上述四個維度的需求,就是 SREWorks 所考慮的問題。

阿里巴巴云原生大數(shù)據(jù)運維平臺 SREWorks 正式開源

阿里云大數(shù)據(jù) SRE 團隊利用分層思想構筑了 SREWorks 平臺產(chǎn)品體系,借鑒經(jīng)典 SPI(SaaS/PaaS/IaaS)三層劃分思路,SREWorks 由“運維 SaaS 應用場景層、運維 PaaS 中臺服務層、運維 IaaS 接入層”三部分構成。

SREWorks 中還融入了運維規(guī)范、標準化思想,利用產(chǎn)品承載自動化流程、數(shù)據(jù)驅動、智能內(nèi)核的方法論。從代碼到線上業(yè)務服務的整個過程,運維或多或少地參與了其中一些工作,因此,圍繞應用的生命周期,在SaaS場景層劃分了“交付、監(jiān)測、管理、控制、運營、服務”六大區(qū)。如下圖所示,每塊內(nèi)容里都有代表性的核心功能。

阿里巴巴云原生大數(shù)據(jù)運維平臺 SREWorks 正式開源

SREWorks 中統(tǒng)一以應用抽象來描述業(yè)務系統(tǒng),在開發(fā)人員將研發(fā)完成的應用制品交付上線后,就會對線上應用實例生命周期進行監(jiān)測、管理、控制。SREWorks所擁有的運維數(shù)據(jù)能力會提供增值化的運營、服務,為有需要的人員提供便捷的視圖、管理能力等。

“交付、監(jiān)測、管理、控制、運營、服務”六大場景在SREWorks產(chǎn)品手冊中有詳細的定義及邊界說明。

完整的數(shù)據(jù)化運維體系實踐

一套數(shù)據(jù)化運維體系,會把所有系統(tǒng)的運維數(shù)據(jù)全部采集起來、真正打通,并深度挖掘這些數(shù)據(jù)的價值,為運維提供數(shù)據(jù)決策;同時構建數(shù)據(jù)化運維業(yè)務模型,基于該模型建立標準化運維數(shù)倉,建設數(shù)據(jù)運維平臺,在平臺中規(guī)范運維數(shù)據(jù)的采集、存儲、計算及分析,并提供一系列數(shù)據(jù)化服務,供上層運維場景使用。

阿里巴巴云原生大數(shù)據(jù)運維平臺 SREWorks 正式開源

有了運維相關的量化數(shù)據(jù),對運維工作的描述和衡量將更加立體化,可以建立長期可持續(xù)優(yōu)化的運維工作模式,實現(xiàn)真正的運維價值。

阿里巴巴云原生大數(shù)據(jù)運維平臺 SREWorks 正式開源
服務化的 AIOps 智能運維平臺

在阿里云大數(shù)據(jù) SRE 團隊看來, AIOps 的出現(xiàn)并沒有改變運維的表現(xiàn)形式,依舊還是“交付、監(jiān)測、管理、控制、運營、服務”的界面,只是在大量運維數(shù)據(jù)化工作的基礎之上,利用AI能力探索、挖掘智能化運維場景。因此,在一開始構筑 AIOps 工程實踐時,就堅持打造“感知、決策、執(zhí)行”的閉環(huán),類似自動駕駛的理念。

阿里巴巴云原生大數(shù)據(jù)運維平臺 SREWorks 正式開源

SREWorks將量身定制的算法與運維場景化結合,能夠提前預測、關聯(lián)分析,增強風險預防、故障定界定位能力,實現(xiàn)傳統(tǒng)手段無法獲得的運維價值。具體而言,將每一個智能化的運維服務包裝成感知的“監(jiān)測器”、決策的“分析器”、執(zhí)行的“策略器”,供健康管理、變更管理等系列服務調用,即可增強已有運維場景,解決一些普通手段無法解決的問題。

運維中臺化、低代碼化及云原生化運維開發(fā)體驗

SREWorks 套件自身也是云原生化的應用,并且采用運維中臺思想構建,在中臺里構建大量的PaaS 化運維服務能力,在前臺圍繞“交、監(jiān)、管、控、營、服”六大場景提供SaaS 化運維場景應用。

阿里巴巴云原生大數(shù)據(jù)運維平臺 SREWorks 正式開源

大部分頁面為企業(yè)后端控制臺類系統(tǒng),不太需要很酷炫的交互設計,故而,運維開發(fā)領域的前端開發(fā)始終難于追趕前端流行趨勢。針對這些特點,SREWorks 創(chuàng)新性地設計了一套 Serverless 體驗的前端開發(fā)模式。

阿里巴巴云原生大數(shù)據(jù)運維平臺 SREWorks 正式開源

三  為什么要開源?

阿里云大數(shù)據(jù) SRE 團隊之前在多次技術分享時重點介紹過“DataOps、AIOps”的能力,但都是純理論層面的介紹。具體在 SRE 領域,到底在工程實踐上實現(xiàn)這一套理論?對運維的需求、界面、內(nèi)核這三層的理解如何落地?為了把數(shù)據(jù)化、智能化這套數(shù)智內(nèi)核故事講明白,阿里云大數(shù)據(jù) SRE 團隊將具有低門檻、高效率特點的云原生運維平臺SREWorks開源出來。他們堅定地認為,運維團隊更需要擁抱云原生,只有這樣,運維才能在云原生浪潮下找到一席之地。

阿里巴巴云原生大數(shù)據(jù)運維平臺 SREWorks 正式開源

該團隊也希望, SREWorks 的開源,能讓更多從業(yè)者使用“大數(shù)據(jù)和AI”的能力做好運維,實現(xiàn)“數(shù)據(jù)+智能”的運維平臺內(nèi)核。據(jù)介紹,SREWorks背靠阿里云計算平臺系列“大數(shù)據(jù)&AI”產(chǎn)品,如 MaxCompute、Flink、DataWorks、Hologres、Elasticsearch 等,開源版中同樣選取了這些產(chǎn)品對應的開源版本,比如開源版 Flink、Elasticsearch 等。

四  后續(xù)規(guī)劃

SREWorks平臺目前每個月會進行一次迭代開發(fā)任務,后續(xù)將由版本管理員統(tǒng)一維護合入相關功能及問題修復等內(nèi)容,以保證最新的云原生化運維能力持續(xù)進入后期版本中。

當前, SREWorks 中有一套 OAM(Open Application Model)規(guī)范的工程化實踐,可以把該實踐看成是 SREWorks 的核心引擎。圍繞該引擎,SREWorks團隊建設了系列運維中臺服務,包含自動化、數(shù)據(jù)化、智能化能力,之后也將跟隨社區(qū) OAM 規(guī)范的發(fā)展,持續(xù)迭代。

五  寫在最后

今天 SREWorks 的開源只是邁出的一小步,非常期待得到開發(fā)者的反饋。SREWorks中也設計了插件化擴展能力,歡迎使用 SREWorks 來打造屬于自己的運維平臺。最后,如果您對 SRE、DataOps、AIOps 或云原生等領域有興趣,都可以參與到我們的建設中來,這將是我們莫大的榮幸,一起交流,一起打造最具特色的 SRE 云原生運維平臺!

項目地址:https://github.com/alibaba/sreworks

歡迎加入釘釘答疑交流群;35853026

還有了解更多大數(shù)據(jù)&Al開源項目: https://www.aliyun.com/activity/bigdata/opensource_bigdata__ai

分享到

xiesc

相關推薦