隨著云計算市場的不斷擴大,數(shù)據(jù)中心服務器的規(guī)模也隨之快速增長。在增長的同時,大規(guī)模數(shù)據(jù)中心在運維層面面臨著巨大的阻礙因素。一邊是海量設(shè)備、高度復雜運維環(huán)境的現(xiàn)實,另一邊是提供高質(zhì)量的IT服務,提升效率并降低成本的訴求,運維團隊面臨巨大挑戰(zhàn)。而對于數(shù)據(jù)中心面臨的挑戰(zhàn),勢必要在事前就制定各類風險的應對策略。

TIFDS(Tencent & Inspur Fault Diagnosis System)是騰訊云與浪潮信息聯(lián)合研發(fā)的故障診斷系統(tǒng),是服務器健康監(jiān)管技術(shù)及故障預警診斷技術(shù)的總稱。該系統(tǒng)以騰訊云數(shù)百萬服務器運營數(shù)據(jù)和浪潮信息深厚的固件研發(fā)專家經(jīng)驗庫為基礎(chǔ),建立一套以帶外BMC為中心的故障診斷系統(tǒng),利用AI技術(shù)對海量服務器運行數(shù)據(jù)實時分析,實現(xiàn)運維工作由人工離線分析向自動智能在線識別的方向發(fā)展。

據(jù)浪潮信息發(fā)布的白皮書介紹,TIFDS系統(tǒng)具有風險實時預警,可結(jié)合AI智能算法,可對非宕機類故障進行實時預警,降低服務器高負荷運行下突然失效的風險;同時具備障精準診斷功能,基于浪潮信息構(gòu)建的專家經(jīng)驗庫,該系統(tǒng)可以將故障自動明確化率提升至95%以上,精準反饋故障觸發(fā)源,提升運維效率;此外,TIFDS系統(tǒng)還具備日志定制化透明安全的特點,浪潮信息創(chuàng)新性地按照騰訊云需求聯(lián)合定制日志輸出上報方式,使診斷過程清晰透明,并對疑難問題進行了識別并建立了線上聯(lián)合診斷系統(tǒng),不斷提升系統(tǒng)運維效率。

在數(shù)據(jù)中心領(lǐng)域,開放計算正成為當前乃至未來數(shù)據(jù)中心的創(chuàng)新主力。作為開放計算的倡導者和踐行者,浪潮信息將繼續(xù)堅持開放開源的技術(shù)路線,攜手業(yè)內(nèi)優(yōu)質(zhì)伙伴,為數(shù)據(jù)中心發(fā)展和高效價值挖掘貢獻更多效能。

分享到

xiesc

相關(guān)推薦