作為國內(nèi)頭部的云計算廠商,騰訊云運營著一百多萬臺服務(wù)器。面對千萬級的測點及千億級的日均消息量,基于數(shù)據(jù)中心自動化運營的管理平臺“騰訊智維”,大規(guī)模落地基于AI、數(shù)字孿生等技術(shù),騰訊云數(shù)據(jù)中心顯著提升了運營效率。
數(shù)據(jù)算法加持 走向“預(yù)測性維護(hù)”
目前,騰訊云已在數(shù)據(jù)中心規(guī)?;瘧?yīng)用AI和軟件機器人等技術(shù),基于數(shù)字孿生的智能化建模、基于數(shù)倉的數(shù)據(jù)治理等手段,實現(xiàn)數(shù)據(jù)和算法驅(qū)動的預(yù)測性維護(hù)、智能化告警。
“騰訊智維平臺基于圖模一體化推進(jìn)事前(風(fēng)險識別和預(yù)警)、事中(告警收斂和影響分析)、事后(事件回顧和設(shè)計優(yōu)化)管理,利用兩張圖(電力單線圖和暖通組態(tài)圖)融合物模型、實時數(shù)據(jù)、系統(tǒng)拓?fù)鋵崿F(xiàn)數(shù)據(jù)治理、容量管理、圖形可視化和仿真模擬,從系統(tǒng)角度實現(xiàn)自動化和智能化運維?!彬v訊云數(shù)據(jù)中心相關(guān)負(fù)責(zé)人表示。
風(fēng)險識別和預(yù)警層面,AI 智能化技術(shù)已得到廣泛應(yīng)用。例如,騰訊云數(shù)據(jù)中心通過電池檢測模型,能實現(xiàn)對電池故障、壽命和容量的預(yù)測,提前14天發(fā)現(xiàn)隱患電池,在確??煽啃缘耐瑫r延長電池使用周期;基于震動/聲音/溫度/電流的頻譜分析和機器學(xué)習(xí),騰訊云數(shù)據(jù)中心能對電機和水泵進(jìn)行預(yù)警分析和故障診斷,例如底座不平衡、松動、匝間絕緣等,可提前預(yù)警和更換,避免宕機事故。
告警收斂和影響分析層面,在監(jiān)控事件、告警運營和輔助決策等智能平臺的支持下,騰訊云數(shù)據(jù)中心的告警準(zhǔn)確率已達(dá)98%,重大運營風(fēng)險主動監(jiān)控率和事件處理效率達(dá)99%以上,此外,“運營吹哨人”機制可實現(xiàn)一分鐘內(nèi)同步告警的影響范圍。
同時,通過提升告警收斂技術(shù),騰訊云將能把99%的非高危風(fēng)險工單進(jìn)行準(zhǔn)確收斂和自動派單,極大降低運維人員的心智負(fù)擔(dān),將重心轉(zhuǎn)移到故障分析、整改措施跟進(jìn)等工作中。
“未來,運營人員軟技能的提升是數(shù)據(jù)中心運營質(zhì)量的重要保證”,相關(guān)負(fù)責(zé)人表示。目前,騰訊云數(shù)據(jù)中心運營團隊正從“數(shù)據(jù)中心運維工程師”向“基礎(chǔ)設(shè)施可靠性工程師(FRE)”轉(zhuǎn)型,不僅具備產(chǎn)品設(shè)計、數(shù)據(jù)分析和低代碼等技能,還能依托系統(tǒng)平臺和低碼平臺進(jìn)行管理,助力數(shù)據(jù)中心的運維工作更加安全、智能和高效。
此外,面對千萬級的基礎(chǔ)設(shè)施測點規(guī)模,騰訊云通過AI實現(xiàn)了PUE自動調(diào)優(yōu)。能夠在沒有人力投入的情況下,每天自動完成對大規(guī)模集群的精準(zhǔn)調(diào)節(jié)。以南方某1000個機架的模組為例,每年節(jié)約電費超過100萬。在具備冷源優(yōu)化條件的數(shù)據(jù)中心,騰訊云還在構(gòu)建風(fēng)冷系統(tǒng)的AI模型。
基于海量的經(jīng)驗積累,通過將AI技術(shù)從標(biāo)桿項目推向全模組覆蓋,騰訊云數(shù)據(jù)中心將能基于更廣闊的場景和數(shù)據(jù),建立可長期演進(jìn)的數(shù)據(jù)中心可靠性模型。
建立物模型體系 推動行業(yè)標(biāo)準(zhǔn)建設(shè)
基于長期的運營經(jīng)驗積累,騰訊云數(shù)據(jù)中心正在將自身經(jīng)驗輸出給行業(yè),并推動建立標(biāo)準(zhǔn)。
本次大會上,騰訊云數(shù)據(jù)中心發(fā)布了“達(dá)爾文物模型開放聯(lián)盟站點”。所謂“物模型”,指的是將數(shù)據(jù)中心型號繁多的設(shè)備進(jìn)行抽象歸納,形成行業(yè)標(biāo)準(zhǔn)。建立物模型體系,不僅能通過即插即用顯著減少接入工作量、實現(xiàn)規(guī)模效應(yīng),還能打通告警、變更等關(guān)鍵業(yè)務(wù)場景,拉通端、邊、云的整體鏈條。
“只有整個行業(yè)去推動標(biāo)準(zhǔn),才能實現(xiàn)真正的即插即用,減少現(xiàn)場監(jiān)控系統(tǒng)調(diào)試,做到成本的最優(yōu)解?!彬v訊云相關(guān)負(fù)責(zé)人表示,希望與物模型廠商合作,共同建立標(biāo)準(zhǔn),最大限度優(yōu)化部署成本和質(zhì)量。
據(jù)了解,騰訊云數(shù)據(jù)中心建立的物模型標(biāo)準(zhǔn),包含 IOT 物聯(lián)模型和DC業(yè)務(wù)模型,沉淀騰訊十多年海量運營之道、安全策略和最佳實踐,將設(shè)備驅(qū)動、機理模型、數(shù)據(jù)治理、告警策略、控制規(guī)則、業(yè)務(wù)管理、大數(shù)據(jù)分析、AI 策略融合在一起,是實現(xiàn)系統(tǒng)高度自動化的必要條件。
值得注意的是,通過與設(shè)備廠商加強統(tǒng)一協(xié)議和標(biāo)準(zhǔn)化模板建設(shè),并自研新北向和智能傳感網(wǎng)絡(luò),騰訊云數(shù)據(jù)中心的多項性能得到提升。例如,監(jiān)控數(shù)據(jù)性能已從分鐘級提升至10秒,未來有望進(jìn)一步提升至1秒。
此外,騰訊云數(shù)據(jù)中心已經(jīng)在間接蒸發(fā)AHU上進(jìn)行了深度定制化嘗試,未來,還將在更多的數(shù)據(jù)中心基礎(chǔ)設(shè)施產(chǎn)品上持續(xù)投入,通過更精細(xì)化的產(chǎn)品定制,推動數(shù)據(jù)中心基礎(chǔ)設(shè)施向模塊化、標(biāo)準(zhǔn)化、簡單、高效方向發(fā)展。
在快速和海量集中自動運營的的需求下,數(shù)據(jù)中心全鏈路正走向開放和快速創(chuàng)新。未來,騰訊云將與合作伙伴共同推動自動化運營的更多探索,實現(xiàn)數(shù)據(jù)中心的精耕細(xì)作、智能運營。