阿里云彈性計算產(chǎn)品線負責人、阿里云無影產(chǎn)品線負責人 張獻濤

eRDMA能力可用于包括HPC、AI、數(shù)據(jù)庫、大數(shù)據(jù)等多個場景,將RDMA變成一種通用的網(wǎng)絡(luò)基礎(chǔ)設(shè)施。

阿里云彈性計算產(chǎn)品總監(jiān) 王志坤

隨后,在與阿里云彈性計算產(chǎn)品線負責人張獻濤和阿里云彈性計算產(chǎn)品總監(jiān)王志坤兩位負責人的采訪中,我發(fā)現(xiàn)了阿里云在基礎(chǔ)設(shè)施層面有許多值得稱道的地方。

為什么現(xiàn)在推出了eRDMA技術(shù)?

熟悉基礎(chǔ)架構(gòu)的朋友都了解,RDMA不是什么新鮮的技術(shù),只是現(xiàn)在對于RDMA的低延遲和高性能表現(xiàn)有了更迫切的需求。

說來也簡單,只要計算集群的網(wǎng)絡(luò)規(guī)模不斷提升,節(jié)點之間數(shù)據(jù)交互的效率會受影響,節(jié)點和節(jié)點之間的訪問延時會加劇,反映到應(yīng)用上,會對業(yè)務(wù)應(yīng)用的實時性帶來制約,長此以往,這顯然是無法接受的。

張獻濤在采訪中表示,對于大數(shù)據(jù)、AI以及高性能計算場景時,傳統(tǒng)的TCP/IP也大致上能滿足需求,只不過整體的通信效率會比較低,而隨著微服務(wù)、服務(wù)網(wǎng)格、Serverless等新型計算模式的流行,頻繁出現(xiàn)的RPC的調(diào)用對網(wǎng)絡(luò)通信延遲的要求也都越來越高。

eRDMA是什么?

eRDMA(e代表Elastic彈性)依托于阿里云的神龍架構(gòu)MoC卡,結(jié)合通用的服務(wù)器以及交換機,再加上私有的協(xié)議來實現(xiàn)RDMA,由于替代了專用網(wǎng)絡(luò)交換機和網(wǎng)卡設(shè)備,所以,成本親民。

從張獻濤的介紹中了解到,用戶無需為eRDMA付出太多額外成本,eRDMA的出現(xiàn)更像是阿里云為所有用戶提供的一項福利,而這項福利將把原本高冷的RDMA變成一項普惠的服務(wù)。

眾所周知,傳統(tǒng)的RDMA對傳輸?shù)目煽啃砸蠛芨?,對網(wǎng)絡(luò)丟包非常敏感。有測試數(shù)據(jù)顯示,大于0.001的丟包率,RDMA網(wǎng)絡(luò)有效吞吐急劇下降,0.01的丟包率就會使RDMA吞吐率下降為0,所以,RDMA需要的是高可靠的網(wǎng)絡(luò),最好是零丟包的那種。

因此,需要克服的技術(shù)挑戰(zhàn)還是挺多的。技術(shù)實現(xiàn)上,阿里云的eRDMA采用了自研的擁塞控制(CC)算法,可以容忍VPC網(wǎng)絡(luò)中的傳輸質(zhì)量變化(延遲、丟包等),在有損的網(wǎng)絡(luò)環(huán)境中依然擁有良好的性能表現(xiàn)。

雖然TCP/IP也能做到RDMA要求的可靠性,但是它是以犧牲時延來達到的可靠,而eRDMA在技術(shù)上的突破點在于,既提供了類似于TCP/IP的可靠性,同時也有極佳的延遲表現(xiàn)。

eRDMA的性能表現(xiàn)如何?

eRDMA可提供最低5微秒的時延,延遲表現(xiàn)優(yōu)于同類技術(shù)方案(AWS的EFA為15.5微秒),雖然比基于Infiniband實現(xiàn)的RDMA方案高了幾微秒,但與原來25微秒的VPC相比,大約降低了80%,由此,數(shù)據(jù)庫、AI和大數(shù)據(jù)等應(yīng)用獲得30%~130%的性能提升。

值得強調(diào)的是,eRDMA最低5微秒的時延表現(xiàn)是在單個可用區(qū)組網(wǎng)中的表現(xiàn)。當然,如果跨地域組網(wǎng),則時延表現(xiàn)會增長,但實際上,跨區(qū)域組網(wǎng)部署應(yīng)用的情況很少見。因此,5微秒的時延有比較實際的參考價值。

常見的RDMA實現(xiàn)方案有Infiniband和RoCE網(wǎng)絡(luò)兩種(iWarp比較少見了),這兩種方案雖然性能表現(xiàn)比eRDMA強,但都依賴于昂貴的專用網(wǎng)絡(luò)設(shè)備,特別是要有優(yōu)先級流量控制能力的交換機設(shè)備,運維成本也比較高,更重要的是,這兩種方案都無法實現(xiàn)大規(guī)模組網(wǎng)。

eRDMA具備很強的擴展性,eRDMA突破了傳統(tǒng)RDMA實現(xiàn)方案中無法大規(guī)模組網(wǎng)的問題,傳統(tǒng)組網(wǎng)方案中,一臺交換機只能支持三四百臺設(shè)備,而eRDMA則能通過大規(guī)模組網(wǎng)構(gòu)建更大的計算集群。

eRDMA的應(yīng)用表現(xiàn)與生態(tài)前景

eRDMA簡單易用,它一端對接的是用戶熟悉的VPC網(wǎng)絡(luò),可以利用VPC提供的各種功能特性,能對接各種云上資源,獲得資源彈性能力。另一端,eRDMA為應(yīng)用提供的ERI(Elastic RDMA Interface)接口也完全參照了RDMA上流行的驗證接口,對接開放生態(tài)。

從王志坤的介紹中了解到,eRDMA支持原生的Verbs接口的應(yīng)用,實現(xiàn)對上層應(yīng)用的無縫支持,來享受RDMA帶來的性能收益,在整體性能方面都有了非常明顯的提升, 即使是Spark和Redis這類數(shù)據(jù)庫應(yīng)用,即使不用做過多的改造,它的性能也有非常明顯提升。

談到大規(guī)模集群的應(yīng)用場景,不得不提機器學習訓(xùn)練場景。

從阿里云過去幾年服務(wù)AI場景的實踐來看,主要都是從網(wǎng)絡(luò)加速層面優(yōu)化機器學習訓(xùn)練過程,而非在機器學習框架和模型層面做優(yōu)化。通過利用AIACC加速引擎來優(yōu)化機器學習訓(xùn)練集群的通信效率,從而提升在云上做機器學習訓(xùn)練的效率。

在張獻濤看來,在應(yīng)用需求的推動下,未來支持eRDMA或者是基于RDMA接口的應(yīng)用會越來越多,以前主要是高性能計算相關(guān)應(yīng)用,而現(xiàn)在,越來越多的大數(shù)據(jù)和AI應(yīng)用也都在適配RDMA接口。目前看來,開源軟件步伐相對快一些,商業(yè)化的軟件則相對慢一點。

從eRDMA到神龍架構(gòu),將Offload進行到底

eRDMA本質(zhì)上是一種CPU Offload(卸載)技術(shù),如果沒有這種Offload,則需要浪費許多寶貴的CPU資源。有測試數(shù)據(jù)顯示,40Gbps的TCP/IP流能幾乎會耗盡主流服務(wù)器的所有CPU資源。如果沒有RDMA這種Offload,這將是計算集群技術(shù)的一場災(zāi)難。

eRDMA的技術(shù)載體阿里神龍架構(gòu)MoC本身也是一種DPU(Data Process Unit),目前,阿里神龍架構(gòu)的MoC卡和AWS的Nitro卡是市場上最常見、也是最成熟的兩種DPU解決方案,DPU能為云服務(wù)商帶來巨大的成本效益和競爭優(yōu)勢。

有數(shù)據(jù)顯示,DPU每年能為IT產(chǎn)業(yè)節(jié)省高達60億美金的成本,除了云廠商自研DPU,市場上出現(xiàn)了多家第三方DPU解決方案,同樣是看中了DPU產(chǎn)業(yè)的巨大商業(yè)機遇,據(jù)了解,阿里云是業(yè)內(nèi)最早自研DPU的云廠商,在許多性能參數(shù)上都達到了業(yè)內(nèi)領(lǐng)先,甚至最佳水平。

從我的個人觀察來看,阿里云eRDMA技術(shù)與AWS EFA(Elastic Fabric Adapter)在功能定位上一致,對比兩種方案的技術(shù)參數(shù)能看到eRDMA的兩大優(yōu)勢,第一,支持數(shù)據(jù)保序,第二,延遲表現(xiàn)更好一些。

阿里云以神龍架構(gòu)為主的技術(shù)創(chuàng)新為其帶來了許多明顯優(yōu)勢,依托于此的基礎(chǔ)設(shè)施也達到了業(yè)內(nèi)領(lǐng)先水平。

最近,Gartner公布的阿里云版本的Gartner Solution ScoreCard 2021報告中對阿里云IaaS+PaaS九方面的能力進行打分,其中,計算、存儲、網(wǎng)絡(luò)以及安全部分得分都達到了業(yè)內(nèi)領(lǐng)先水平,認可了阿里云在IaaS基礎(chǔ)設(shè)施層面的實力。

分享到

zhupb

相關(guān)推薦