當(dāng)用戶在阿里云選擇高性能云盤ESSD、云原生數(shù)據(jù)庫(kù)POLARDB、云超算SCC、機(jī)器學(xué)習(xí)PAI等產(chǎn)品時(shí),均運(yùn)行在RDMA網(wǎng)絡(luò)之上。也正因?yàn)槿绱耍@些廣受歡迎的創(chuàng)新產(chǎn)品背后已經(jīng)共享了網(wǎng)絡(luò)的技術(shù)紅利。
RDMA是目前業(yè)內(nèi)最受歡迎的高性能網(wǎng)絡(luò)技術(shù),能大大節(jié)約數(shù)據(jù)傳輸時(shí)間,被認(rèn)為是提高人工智能、超算等效率的關(guān)鍵。數(shù)據(jù)顯示,在未使用RDMA網(wǎng)絡(luò)時(shí),語(yǔ)音識(shí)別訓(xùn)練每次迭代任務(wù)時(shí)長(zhǎng)為650ms至700ms,其中通信時(shí)延就占400ms。
為了提高數(shù)據(jù)傳輸速度、滿足用戶需求,亞馬遜、微軟等主要云廠商都在投入該技術(shù)的研發(fā)和部署,但鮮有企業(yè)實(shí)現(xiàn)RDMA在數(shù)據(jù)中心的大規(guī)模應(yīng)用。
在2016年,阿里巴巴開始投入專項(xiàng)研究,以改造RDMA、提高傳輸性能。從網(wǎng)卡底層開始設(shè)計(jì)滿足大規(guī)模應(yīng)用的網(wǎng)絡(luò),并結(jié)合阿里自研交換機(jī)實(shí)現(xiàn)性能最大化,最終建成全球最大規(guī)模數(shù)據(jù)中心內(nèi)的”高速網(wǎng)”,使得集群極大地突破了傳輸速度瓶頸,并將時(shí)延顯著降低90%。
以2018年天貓雙11為例,基于RDMA網(wǎng)絡(luò)技術(shù)的云存儲(chǔ)和電商數(shù)據(jù)庫(kù)服務(wù)器可以從容地應(yīng)對(duì)峰值流量考驗(yàn)。
而上汽集團(tuán)乘用車也正采用加入高速RDMA互聯(lián)支持的云超算SCC集群進(jìn)行模擬仿真,整體提升效率25%。
“RDMA網(wǎng)絡(luò)已經(jīng)成為人工智能、科學(xué)計(jì)算等高性能計(jì)算、存儲(chǔ)業(yè)務(wù)的必備技術(shù),我們將繼續(xù)探索更高帶寬的網(wǎng)絡(luò)技術(shù),未來將部署 100G高速網(wǎng)絡(luò),為企業(yè)提供穩(wěn)定、低延時(shí)的網(wǎng)絡(luò)服務(wù)。” 阿里巴巴基礎(chǔ)設(shè)施首席網(wǎng)絡(luò)架構(gòu)師蔡德忠向記者表示。
作為全球前三、國(guó)內(nèi)第一的云服務(wù)商,阿里云在全球19個(gè)地域擁有56個(gè)可用區(qū),網(wǎng)絡(luò)總帶寬已達(dá)到 PB 級(jí)別超大規(guī)模,目前正在測(cè)試400G 網(wǎng)絡(luò)的研發(fā),推出的 400G QSFP-DD行業(yè)標(biāo)準(zhǔn)已受到全球企業(yè)廣泛支持。