浪潮NF5288M5

因此,選用更高密度、更高效率的GPU服務器就成為快速、精準模型訓練的關鍵。浪潮NF5288M5就是目前業(yè)界最高密度的GPU服務器,它在2U空間內(nèi)支持部署8塊NVLink或PCI-E 接口的NVIDIA? Tesla? V100 GPU,可以在不依賴CPU的前提下,實現(xiàn)機內(nèi)點到點通訊,減少了異構通訊的次數(shù),GPU間高達300GB/s的互連帶寬,并提供極低的延遲,讓多塊GPU并行的效率大幅提升超過60%。在AI深度學習模型訓練上,當采用TensorFlow框架和GoogLeNet模型,NF5288M5處理速度可以達到每秒1165幅圖,是搭配4片Tesla? M40的NF5288M4性能的2.49倍。與浪潮支持2U4卡的NF5288M4對比測試,NF5288M5采用P100的Linpack浮點運算性能達29.33TFLOPS,是同樣采用P100 NF5288M4的2.47倍。

拍個照就能找到商品,如何讓機器找到每個產(chǎn)品?

“拍照購”是淘寶上線多年的一個功能,但從今年雙11期間的實際體驗來看,拍照購的速度和精度都有明顯的提升。據(jù)阿里公布的數(shù)據(jù)顯示,今年雙11當天通過拍立淘搜索的圖片數(shù)量超過4000萬張。為何機器能夠精準地找到與照片一樣的商品?

其實與魯班類似,拍立淘的本質(zhì)也是圖片的識別和處理,通過商品預分類-檢測前景對象-提取CNN特征和局部特征-離線建立特征庫-提取索引目標特征并在線推理-根據(jù)不同的優(yōu)化目標重新排序這6個步驟,建立照片與商品間的關聯(lián)。

之前,圖片的模型訓練過程通常由GPU服務器來承擔,在線推理過程則由CPU或者GPU服務器來負責。模型訓練過程正如上文所說,需要大量的計算,因此GPU的加入可以極大加速訓練過程。但是在線上推理階段,CPU和GPU服務器卻都不是最好的選擇。FPGA這種具有更低延遲、更高并發(fā)性能的新型加速卡成為目前在線推理重要的一支力量。

浪潮FPGA F10A

上個月,浪潮在云棲大會發(fā)布了基于浪潮F10A的AI線上推理加速方案,能夠針對CNN卷積神經(jīng)網(wǎng)絡的相關算法進行優(yōu)化和固化,可加速ResNet等神經(jīng)網(wǎng)絡,能夠應用于圖片分類、對象檢測和人臉識別等應用場景。

浪潮FPGA一體化解決方案

實測數(shù)據(jù)顯示,在進行ResNet殘差網(wǎng)絡的圖片識別分類任務時,浪潮F10A加速方案圖片處理速度可達每秒742張,Top-5識別準確率達到99.6%,相比同檔次GPU能效比提升3倍以上。而與通用CPU對比,在處理這種高并行、小計算量的任務時,F(xiàn)10A的優(yōu)勢將更明顯。

解放運維人員的“天巡”是否全能無敵?

每年雙11,數(shù)據(jù)中心管理人員都必須對設備的運行容量參數(shù)、數(shù)據(jù)中心環(huán)境溫濕度、空調(diào)運行狀態(tài)及IT設備工作狀態(tài)等進行全天24小時安全巡邏,保障各系統(tǒng)的安全可靠運行。雖然這是一項簡單的工作,但是由于需要全天無休且重復性強,極為消耗人力物力。

為此,在雙11期間,阿里巴巴華北數(shù)據(jù)中心的巡檢工作將由智能運維機器人“阿里巴巴天巡”完成。天巡采用3D激光雷達,能夠在數(shù)據(jù)中心實現(xiàn)自主導航,獨立完成巡檢。機器人帶有全景高精度攝像頭、傳感器,在巡檢中可以完成溫度、濕度、空氣質(zhì)量、電氣參數(shù)、空調(diào)參數(shù)等監(jiān)測工作。根據(jù)實際應用看,天巡不僅全天24小時巡檢,而且接替了運維人員以往30%的重復性工作。

除了這部分簡單、重復的任務,剩下的70%的任務目前仍需要人工的干預和處理。因此雙11期間的工程師值守是每個電商企業(yè)都需要安排的重要工作。

雙十一期間,浪潮向各大電商(如阿里巴巴、京東、蘇寧等)派駐專業(yè)工程師,進行長達72小時的無休值守,對現(xiàn)場出現(xiàn)的問題進行快速定位和解決。并且這些工程師并不是臨時、隨意派駐的,所有的值守人員都需要經(jīng)過浪潮服務器工程師認證培訓及客戶定制售后服務培訓認證,并經(jīng)過一個月的現(xiàn)場學習,通過最終考核后才能成為值守團隊的一員。

舉個例子,為支援國內(nèi)某頂級電商雙十一,浪潮提前一個月就開始進行雙十一保障準備,成立專項保障小組,在雙十一前夕確認所有備件全部到達客戶現(xiàn)場,在客戶超過20個機房派駐現(xiàn)場服務工程師,并在總部設置超過50個工程師團隊進行24小時待命(包括技術專家、備件管理團隊、特殊應急小組),嚴格執(zhí)行“1小時內(nèi)定位故障,2小時內(nèi)修復故障”。

在雙11的推動下,數(shù)據(jù)中心在發(fā)生著天翻地覆的變革,為了抵御互聯(lián)網(wǎng)每年一次的最大網(wǎng)購流量沖擊,電商數(shù)據(jù)中心幾乎應用了互聯(lián)網(wǎng)全部最前沿技術,在解決各種問題的同時又將技術升華。未來,或許目前仍需要人力保障的任務也將被替代,那時候AI將成為我們最得力的助手,“要讓工程師們喝著茶度過雙十一”這個愿景或許就將來臨。

分享到

zhangnn

相關推薦