“天巡”真身

數(shù)據(jù)中心里新來(lái)的年輕人

張北數(shù)據(jù)中心是阿里巴巴華北地區(qū)最重要的數(shù)據(jù)中心之一,承載著全球雙11龐大的平臺(tái)交易量及數(shù)據(jù)計(jì)算任務(wù)。同時(shí),作為阿里云重要的數(shù)據(jù)中心節(jié)點(diǎn)(華北3節(jié)點(diǎn)),向合作伙伴提供領(lǐng)先的云計(jì)算服務(wù)。

既然是數(shù)據(jù)中心重地,為什么要讓機(jī)器人來(lái)巡檢?

這么大的數(shù)據(jù)中心,這么多的服務(wù)器,普通人走上一圈都要花幾個(gè)鐘頭,況且數(shù)據(jù)中心環(huán)境復(fù)雜,如果服務(wù)器出現(xiàn)問(wèn)題,維修人員得像圖書(shū)館找書(shū)似的去鎖定位置,費(fèi)時(shí)費(fèi)力。

假如因?yàn)闊o(wú)法準(zhǔn)確鎖定故障發(fā)生的具體位置而耽誤維修,對(duì)于雙11來(lái)說(shuō),無(wú)疑是災(zāi)難。

天巡的出現(xiàn),不僅僅能解放管理人員的雙腳。它的腦子里有數(shù)據(jù)中心地圖,身上裝著激光雷達(dá)導(dǎo)航、傳感器和全景攝像,巡邏一圈,數(shù)據(jù)中心的溫度、濕度、電氣參數(shù)、每個(gè)服務(wù)器的運(yùn)營(yíng)狀況,全都能實(shí)時(shí)傳回后臺(tái)。

若后臺(tái)發(fā)現(xiàn)服務(wù)器故障,它可以瞬間鎖定維修地點(diǎn),通過(guò)大腦里存儲(chǔ)的服務(wù)器坐標(biāo)直接帶領(lǐng)維修人員到達(dá)指定維修地。如果維修過(guò)程中遇到特殊情況,維修人員還可以用它與值班室人員語(yǔ)音對(duì)話進(jìn)行求助。

當(dāng)然,天巡也必須遵循數(shù)據(jù)中心重要守則——不可以觸碰任何IT設(shè)備。如何做到?它的底盤經(jīng)過(guò)特別定制,支持原地360°旋轉(zhuǎn),能夠避免碰撞和摔跤,在數(shù)據(jù)中心里自由穿梭。

從實(shí)習(xí)期的表現(xiàn)來(lái)看,天巡可以接替運(yùn)維人員30%的工作。聽(tīng)說(shuō)未來(lái)能夠替代至少60%以上的重復(fù)性工作。

在宇宙中心獨(dú)自仰望

作為全宇宙唯一的數(shù)據(jù)中心小可愛(ài),天巡的“智力”來(lái)自于科學(xué)家們研發(fā)的智能大腦——阿里巴巴天機(jī)。

天機(jī)包括一系列運(yùn)行在阿里云上的算法和應(yīng)用,包括提供在線數(shù)據(jù)分析的數(shù)據(jù)存儲(chǔ)技術(shù)、協(xié)調(diào)全網(wǎng)的負(fù)載均衡技術(shù)、異地雙活的容災(zāi)技術(shù)等等。

憑借強(qiáng)大的云計(jì)算能力,天機(jī)監(jiān)管著數(shù)據(jù)中心近百萬(wàn)臺(tái)服務(wù)器,對(duì)每個(gè)服務(wù)器的數(shù)百個(gè)數(shù)據(jù)點(diǎn)進(jìn)行實(shí)時(shí)檢測(cè)采集,能對(duì)億萬(wàn)級(jí)的數(shù)據(jù)點(diǎn)進(jìn)行秒級(jí)檢測(cè)和故障定位,并根據(jù)使用情況繪制服務(wù)器生命周期曲線,實(shí)現(xiàn)對(duì)服務(wù)器故障的提前預(yù)判能力。

簡(jiǎn)單來(lái)說(shuō),天機(jī)知曉百萬(wàn)臺(tái)服務(wù)器的工作表現(xiàn)和身體狀況,還能預(yù)判它們的生老病死。

在“養(yǎng)成”階段,每個(gè)服務(wù)器數(shù)百個(gè)數(shù)據(jù)監(jiān)測(cè)點(diǎn)的屬性就已經(jīng)輸入到天巡的大腦中。結(jié)合阿里的應(yīng)用和算法學(xué)習(xí)建模,后臺(tái)的部分監(jiān)測(cè)指標(biāo)轉(zhuǎn)化為操作命令,輸入到天巡的崗位需求中。

天巡根據(jù)系統(tǒng)數(shù)據(jù)樣本曲線能智能規(guī)劃巡檢路線,自動(dòng)將任務(wù)的最佳路徑指派到現(xiàn)場(chǎng)執(zhí)行,實(shí)現(xiàn)數(shù)據(jù)中心的無(wú)人化管理。也就是說(shuō),命令指向哪兒,它的“眼珠子”和“腳”就朝哪兒轉(zhuǎn)。

通過(guò)它對(duì)目標(biāo)區(qū)域進(jìn)行溫度、濕度及空氣質(zhì)量等數(shù)據(jù)二次采集和實(shí)時(shí)上傳,數(shù)據(jù)中心里不光有電腦里的監(jiān)測(cè)數(shù)據(jù),經(jīng)常跑現(xiàn)場(chǎng)的天巡還帶來(lái)了一份LIVE版數(shù)據(jù)中心實(shí)況。數(shù)據(jù)中心管理人員通過(guò)數(shù)據(jù)大屏即可掌握全貌。

結(jié)合現(xiàn)場(chǎng)狀態(tài)和歷史數(shù)據(jù),天巡還會(huì)咀嚼消化,從而及時(shí)預(yù)判風(fēng)險(xiǎn),解決問(wèn)題。也就是說(shuō),人還沒(méi)到現(xiàn)場(chǎng)呢,智能大腦天機(jī)就可以將可能原因、解決方案羅列清楚,方便對(duì)癥下藥。

2016年,天機(jī)使數(shù)據(jù)中心故障發(fā)現(xiàn)時(shí)效提升20倍。

安全防護(hù)上,天巡存儲(chǔ)著數(shù)據(jù)中心授權(quán)人員信息。只要感知到任何非授權(quán)人員,它能夠跟隨非授權(quán)人員,并現(xiàn)場(chǎng)發(fā)出警報(bào)。就算是授權(quán)人員,如果非授權(quán)時(shí)間進(jìn)入數(shù)據(jù)中心,它也會(huì)監(jiān)控你的一舉一動(dòng),并發(fā)出警報(bào)。

人工巡檢的工作它能干,人工干不了的工作它也能干,能跑會(huì)動(dòng)還不偷懶,巡檢效率比同事高60%以上,工作響應(yīng)速度至少提升2倍。

這樣的新員工,指哪打哪,領(lǐng)導(dǎo)和同事們自然高興的不得了。

未來(lái)更聰明

阿里巴巴數(shù)據(jù)中心高級(jí)專家閆昆告訴《天下網(wǎng)商》,未來(lái),通過(guò)對(duì)天巡的不斷訓(xùn)練和硬件升級(jí)。

天巡會(huì)替代人去執(zhí)行更多的工作,例如對(duì)服務(wù)器進(jìn)行重啟,更換硬盤等等。

“現(xiàn)在這些工作還是要人工去做,可能走20分鐘就為了按一個(gè)按鈕,對(duì)于運(yùn)維人員來(lái)說(shuō)既枯燥又費(fèi)勁”。如果能解放他們的雙手雙腳,他們就能有時(shí)間專注于其他工作。

這并不是一件簡(jiǎn)單的事。市場(chǎng)上能跳舞、打太極、扭秧歌的機(jī)器人到處都是,但是想要進(jìn)數(shù)據(jù)中心,必須得腳穩(wěn)、手準(zhǔn)、頭腦聰明。

天巡能“考核成功”,必須要感謝它那聰明無(wú)敵的大腦——天機(jī),它統(tǒng)管國(guó)內(nèi)規(guī)模最大的IDC(數(shù)據(jù)中心)集群,實(shí)現(xiàn)了阿里巴巴國(guó)內(nèi)IDC連續(xù)745天無(wú)影響業(yè)務(wù)故障的記錄。

除此之外,張北數(shù)據(jù)中心還是國(guó)內(nèi)國(guó)內(nèi)首個(gè)啟用大規(guī)模自然風(fēng)制冷的數(shù)據(jù)中心,可將全年全樓的能耗比(PUE)控制在1.2以內(nèi),最低可達(dá)1.13,優(yōu)于國(guó)家標(biāo)準(zhǔn)20%以上。

什么,聽(tīng)不懂??覺(jué)得震撼就好,數(shù)據(jù)中心可不是誰(shuí)都能去的。

2016年的雙11,每秒下訂單筆數(shù)超過(guò)17.5萬(wàn)筆,支付筆數(shù)超過(guò)12萬(wàn)筆。完成這些令人咋舌交易數(shù)字,需要依賴超級(jí)強(qiáng)大的計(jì)算能力。正是阿里巴巴數(shù)據(jù)中心保障了雙11夜晚一個(gè)個(gè)創(chuàng)紀(jì)錄的數(shù)字誕生。

今年,有天巡24小時(shí)守著數(shù)據(jù)中心,大家繼續(xù)續(xù)痛痛快快買買買。

 

本文來(lái)源:天下網(wǎng)商

分享到

songjy

相關(guān)推薦