先智數(shù)據(jù)中國(guó)區(qū)總經(jīng)理董唯元

董唯元表示,真正的智能化運(yùn)維,最需要顛覆的是事前采取行動(dòng),數(shù)據(jù)中心系統(tǒng)故障有半數(shù)以上與磁盤有關(guān),通過(guò)長(zhǎng)周期的磁盤故障預(yù)測(cè),可切實(shí)解決運(yùn)維難題。計(jì)算集群越大,越難保障可靠性,傳統(tǒng)依賴RAID或副本保護(hù)的防范機(jī)制,僅能在故障發(fā)生后被動(dòng)處理,是用資源利用率換取可靠性,耗時(shí)耗力且存在諸多隱患。

結(jié)合運(yùn)行環(huán)境訓(xùn)練AI引擎,讓機(jī)器學(xué)習(xí),深入分析并準(zhǔn)確預(yù)測(cè)磁盤故障的方式可實(shí)現(xiàn)主動(dòng)式故障排解,顯著提升系統(tǒng)可靠性。“對(duì)于用戶,既要第一時(shí)間修復(fù)數(shù)據(jù),又要保證前臺(tái)應(yīng)用不受影響,未來(lái)故障不是隨機(jī)事件,而是可計(jì)劃事件?!?/strong>

先智數(shù)據(jù)新型智能化故障預(yù)測(cè)解決方案DiskProphet,將SMART信息與性能負(fù)載相結(jié)合,SMART信息相當(dāng)于人的身高、血壓和心跳,描述磁盤的健康狀態(tài),先智做的事不是看門診,而是要預(yù)判壽命,算出平時(shí)吃什么、工作怎么樣,這些對(duì)壽命都有影響,結(jié)合環(huán)境因素,綜合預(yù)測(cè)壽命。DiskProphet運(yùn)用AI技術(shù)精準(zhǔn)預(yù)測(cè)磁盤壽命的招數(shù),是傳統(tǒng)靠經(jīng)驗(yàn)建模的方式很難做得準(zhǔn)的。

作為AI在企業(yè)級(jí)IT技術(shù)的先行者,先智數(shù)據(jù)運(yùn)用基于深度學(xué)習(xí)的Prophet預(yù)測(cè)引擎,訓(xùn)練出聰明的神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)對(duì)磁盤壽命長(zhǎng)周期的精準(zhǔn)預(yù)測(cè),率先推出了基于AI的DiskProphet產(chǎn)品及磁盤故障預(yù)測(cè)解決方案,可謂運(yùn)維圈的“磁盤算命先生”。

實(shí)際上,磁盤可沒有想象中用得那么久,往往磁盤故障多在系統(tǒng)上線的3個(gè)月內(nèi)或臨近保修期,而意外故障往往出現(xiàn)在不恰當(dāng)?shù)臅r(shí)間點(diǎn),猝不及防,被動(dòng)式的傳統(tǒng)副本數(shù)據(jù)保護(hù)機(jī)制不足以應(yīng)對(duì)當(dāng)前復(fù)雜的運(yùn)維需求,還會(huì)拖累存儲(chǔ)系統(tǒng)性能,計(jì)算集群的可靠性難以保障。

先智數(shù)據(jù)DiskProphet通過(guò)智能分析硬盤當(dāng)前健康狀況與完整生命周期,精準(zhǔn)預(yù)測(cè)設(shè)備壽命與故障可能性(預(yù)測(cè)準(zhǔn)確率超過(guò)95%),將不可預(yù)知的隨機(jī)意外故障變?yōu)榭深A(yù)先防御的計(jì)劃事件。該方案迄今已在基于大規(guī)模高性能計(jì)算集群(HPC)的業(yè)務(wù)場(chǎng)景成效卓越,為HPC集群高效分析海量磁盤的生命周期,預(yù)判故障將要發(fā)生的時(shí)間節(jié)點(diǎn),避免頻繁的任務(wù)返工,大幅提升業(yè)務(wù)效率,正因此,該產(chǎn)品曾榮獲“最具創(chuàng)新AIOps產(chǎn)品獎(jiǎng)”。

 

本次大會(huì)由工信部信通院數(shù)據(jù)中心聯(lián)盟(DCA)指導(dǎo),高效運(yùn)維社區(qū)(GreatOPS)與開放運(yùn)維聯(lián)盟(OOPSA)聯(lián)合主辦,業(yè)界頂級(jí)專家云集,AIOps、運(yùn)維自動(dòng)化與DevOps為主旋律,此外還有金牌運(yùn)維、大數(shù)據(jù)運(yùn)維、金融案例、基礎(chǔ)架構(gòu)、運(yùn)維領(lǐng)導(dǎo)力以及容器與微服務(wù)等特色專場(chǎng)。

分享到

zhangnn

相關(guān)推薦