董唯元認(rèn)為,實(shí)現(xiàn)智能化的數(shù)據(jù)中心運(yùn)維,要從減少I(mǎi)T系統(tǒng)運(yùn)維對(duì)專業(yè)人士的依賴入手,借助智能化輔助管理,由人工智能解決系統(tǒng)解決眾多瑣碎的細(xì)節(jié)問(wèn)題,提高效率。在判斷數(shù)據(jù)中心復(fù)雜的系統(tǒng)故障時(shí),無(wú)論是應(yīng)用端還是在設(shè)備端,幾乎所有防范故障的手段存在冗余,而智能化手段可以準(zhǔn)確做出預(yù)判。
系統(tǒng)磁盤(pán)數(shù)據(jù)量太大時(shí),多核磁盤(pán)可能會(huì)同時(shí)出現(xiàn)故障,先智數(shù)據(jù)具備主動(dòng)式故障預(yù)測(cè)能力,同時(shí)防范諸多隱患,不僅如此,還能通過(guò)人工智能技術(shù),預(yù)測(cè)磁盤(pán)壽命,先知先覺(jué),為企業(yè)降本增效。
以下內(nèi)容根據(jù)演講實(shí)錄整理:
先智數(shù)據(jù),大家看這個(gè)名字覺(jué)得好像跟人工智能有點(diǎn)關(guān)系,公司成立已有五年時(shí)間,我們起和智能相關(guān)的名字時(shí),人工智能還沒(méi)有那么熱,我們的團(tuán)隊(duì)大多是原先做存儲(chǔ)的研發(fā)人員,存儲(chǔ)領(lǐng)域多年來(lái)在應(yīng)用上始終存在一定的局限性,所有的動(dòng)態(tài)都須配上預(yù)測(cè)能力,當(dāng)磁盤(pán)空間不夠時(shí)再去解決,這個(gè)動(dòng)態(tài)沒(méi)有太多意義。
預(yù)測(cè)能力在數(shù)據(jù)中心里到底能干什么?意義又是什么?
先智數(shù)據(jù)的愿景就是連接存儲(chǔ)與未來(lái)的人工智能,宏觀來(lái)講,是人工智能與基礎(chǔ)架構(gòu)之間的關(guān)系,在基礎(chǔ)架構(gòu)領(lǐng)域,很多人工智能的應(yīng)用起到了替代人工或部分替代人工的應(yīng)用,或者說(shuō),它替代了基礎(chǔ)架構(gòu)原理本身的工作模式。所以人工智能在數(shù)據(jù)中心的應(yīng)用,首先是減少對(duì)專業(yè)人士的依賴。面對(duì)數(shù)據(jù)中心可能出現(xiàn)的故障,我們所能做的就是作最壞的打算,到底哪里會(huì)有故障,其實(shí)是不可知的,所有的防范故障的手段都是冗余,冗余不是出現(xiàn)在應(yīng)用端就是在設(shè)備端,純靠冗余并不能堵住問(wèn)題,除了堵,就是作疏堵結(jié)合,通過(guò)智能化手段作預(yù)判,相對(duì)比較準(zhǔn)確地預(yù)知未來(lái)情況,雖然故障可能還會(huì)存在,但大大減輕了面對(duì)故障時(shí)的人為壓力,明確知道故障原因,選擇應(yīng)對(duì)手段就會(huì)變得更輕松。運(yùn)維思路發(fā)生變化,這種轉(zhuǎn)變就是預(yù)測(cè)能力帶給數(shù)據(jù)的比較基礎(chǔ)的意義。
預(yù)知能力可以解決哪些具體實(shí)際問(wèn)題?
現(xiàn)有技術(shù)大多還是在于后期“治病”階段,先智數(shù)據(jù)充當(dāng)“算命”角色,算出設(shè)備使用多久會(huì)壞,并不做后期治病的事情。例如,兩副本或三副本存儲(chǔ),是比較奢侈的配置方式,在這種配置方式下,我們產(chǎn)品的可靠性得到了充分保證,為1PB的數(shù)據(jù)擴(kuò)展出3PB的空間,但實(shí)際上,兩副本或者三副本,這種副本保護(hù)機(jī)制并沒(méi)有想象中那么強(qiáng),所以我們要得出系統(tǒng)總體的健康概率時(shí),就要用到一個(gè)疊加的方式,這個(gè)原來(lái)叫副本安全分布邊界。
總之當(dāng)系統(tǒng)磁盤(pán)數(shù)據(jù)量太大,多核磁盤(pán)可能會(huì)同時(shí)出現(xiàn)故障,為保障可靠性,限制磁盤(pán)總數(shù)上限,這個(gè)數(shù)可能遠(yuǎn)低于大家的直觀感覺(jué),大家覺(jué)得我用了那么奢侈的副本保護(hù),還是有局限性。
磁盤(pán)故障了要修復(fù),這會(huì)影響前端的應(yīng)用,存儲(chǔ)不光可靠性這一點(diǎn)重要,還有性能的可靠性,這是存儲(chǔ)里最核心的兩條腿,如果VDI出現(xiàn)風(fēng)暴,早晨九點(diǎn)鐘左右,這個(gè)時(shí)候VDI的壓力是最大的,硬盤(pán)壞了,到底是修復(fù)還是不修復(fù)?如果修復(fù),同事們打開(kāi)郵件的就會(huì)慢,如果不修復(fù),或者用最低的資源去慢速修復(fù)它,可能修復(fù)過(guò)程要一周左右,對(duì)用戶來(lái)講實(shí)際上很不愿意看到魚(yú)和熊掌的選擇,這是真實(shí)需求,今天由于技術(shù)的局限不可能做到這一點(diǎn)的根源,其實(shí)是說(shuō)所有故障修復(fù)手段是在事后進(jìn)行的,如果能提前預(yù)知故障,修復(fù)手段還是原來(lái)的修復(fù)手段,但是我可以把這些動(dòng)作提前到故障發(fā)生之前,就可能解決太多現(xiàn)在不方便解決的問(wèn)題,不管是可靠性脆弱的問(wèn)題,還是可靠性與性能互斥的問(wèn)題,都可以迎刃而解。但如果有預(yù)知能力,相當(dāng)于給系統(tǒng)增加了一個(gè)緯度,原來(lái)很難逾越的障礙在新緯度上很輕松就可以跳過(guò)去。同時(shí),提前預(yù)測(cè)這種機(jī)制實(shí)際可以提前避免準(zhǔn)故障狀態(tài)帶來(lái)的隱患,可以不用再面臨準(zhǔn)故障狀態(tài)不好不壞說(shuō)不清的過(guò)程。
我們具體的工作原理主要是基于磁盤(pán)的SMART信息,和它所運(yùn)行環(huán)境的CPU內(nèi)存的應(yīng)用負(fù)載狀態(tài),兩個(gè)因素疊加在一起,我們看到有一些比較類(lèi)似的做磁盤(pán)診斷的工具,我們今天要解決的就是這個(gè)問(wèn)題,就是要附加上很多所處工作環(huán)境的信息。通過(guò)兩個(gè)東西的疊加才能得出來(lái)時(shí)間延續(xù)的預(yù)測(cè)。包括國(guó)內(nèi)的互聯(lián)網(wǎng)廠商做的預(yù)測(cè)基本上都是基于建模的方式,這種方式做出來(lái)的效果有點(diǎn)像天氣預(yù)報(bào),今天下午很準(zhǔn),明天上午還比較準(zhǔn),一周后甚至一個(gè)月之后就無(wú)法準(zhǔn)確預(yù)測(cè)了,這種基于建模方式做的預(yù)測(cè)其實(shí)都有這個(gè)問(wèn)題,就是近期準(zhǔn),我們?yōu)榱俗鲩L(zhǎng)周期的預(yù)測(cè),采用比較復(fù)雜的神經(jīng)網(wǎng)絡(luò)診斷。
這個(gè)預(yù)測(cè)最核心的要素其實(shí)不是神經(jīng)網(wǎng)絡(luò)怎么建,最核心的要素是你有沒(méi)有數(shù)據(jù)去訓(xùn)練它,比較有核心價(jià)值的地方是,我們有將近十萬(wàn)個(gè)磁盤(pán)在連續(xù)四年的時(shí)間里,每一天都有連續(xù)的狀態(tài)記錄,這樣加在一起一共有6000萬(wàn)左右的樣本量,我們才訓(xùn)練出今天的神經(jīng)網(wǎng)絡(luò),可以相對(duì)來(lái)說(shuō)能比較準(zhǔn)確地預(yù)測(cè)磁盤(pán)壽命。