邁絡(luò)思亞太區(qū)解決方案營銷總監(jiān) 張輝
張輝表示,早期的矛盾主要集中在毫秒級別的磁盤介質(zhì)延遲,而網(wǎng)絡(luò)延遲和軟件堆棧(200+微秒)基本都處于微秒級別。然而,現(xiàn)在的介質(zhì)延遲基本已經(jīng)被控制在微秒級別。這時候你會發(fā)現(xiàn)你的瓶頸主要矛盾已經(jīng)不是介質(zhì),而是網(wǎng)絡(luò)本身和軟件堆棧。
以下為張輝的演講實(shí)錄整理:
今天我要講的內(nèi)容是網(wǎng)絡(luò)如何把存儲的性能釋放出來,并把閃存的性能釋放得更高。
我們現(xiàn)在可以看到,閃存發(fā)展越來越快,整個生態(tài)系統(tǒng)也會增長越來越快,幾乎接近100%的增長速度。當(dāng)然,NVMe相關(guān)的增長也更快,在2020年的時候,有70%的Server會用到NVMe。存儲方面,幾乎70、80%會用到NVMe。也就說,用不到NVMe的場景會很少。
最早的SAS、SATA、PCI的NVMe。這條做技術(shù)什么感覺?傳統(tǒng)的磁盤,走SCSi協(xié)議一路下來是沒有問題的,但是介質(zhì)和技術(shù)在發(fā)展的時候,協(xié)議(軟件層)沒有更大的進(jìn)步,這時候會出現(xiàn)效率降低。這里面有一個對比,一個是SAS,一個是SATA,基于SATA走PCIe的性能會出現(xiàn)幾倍的差距,因?yàn)镹VMe把整個協(xié)議層做了重新的編寫,跳過了一些比較繁鎖的過程。
存儲是隨著介質(zhì)的變化,科技的發(fā)展,當(dāng)然最重要的也是來自于客戶需求的變化,迫使我們做更好。為此,我們有兩個層面的應(yīng)對方法。一個容量更大,另外一個是速度更快。單介質(zhì)目前發(fā)展的比較快,包括未來會有3D XPoint,而我個人比較堅信未來Flash會發(fā)展的越來越快,越來越好。
這個問題暴露出來這個單節(jié)點(diǎn)性能越來越好,那么他們之間如何通信?我舉兩個例子,比如北京的交通。我相信無論是北京還是三、四線城市都會擁堵,拓寬街道其實(shí)難以解決這個問題。那么怎么解決這個問題?不可能不買車,就像不可能不去運(yùn)用我們這些數(shù)據(jù),如何疏導(dǎo)也是一個問題。因此我剛才提到了帶寬,再一個就是協(xié)議層的調(diào)整。在網(wǎng)絡(luò)上相對比較簡單,我們看一下Mellanox是怎么做的。在NVMe出現(xiàn)以后你會發(fā)現(xiàn),萬兆根本無法支撐,百G的情況下也只能跑3-4個。所以說,25G剛剛起步,一個25G剛剛夠支撐一個NVMe。
剛才我們談了介質(zhì),現(xiàn)在我想談“超融合”。超融合是典型的分布式,節(jié)點(diǎn)之間的通信流量會很大。因此這個技術(shù)對都網(wǎng)絡(luò)的要求會越來越高,對延時和帶寬也都有很高的要求。
再回到技術(shù)看一下,我們要優(yōu)先解決網(wǎng)絡(luò)中的主要問題。早期的矛盾主要集中在毫秒級別的磁盤介質(zhì)延遲,而網(wǎng)絡(luò)延遲和軟件堆棧(200+微秒)基本都處于微秒級別。然而,現(xiàn)在的介質(zhì)延遲基本已經(jīng)被控制在微秒級別。這時候你會發(fā)現(xiàn)你的瓶頸主要矛盾已經(jīng)不是介質(zhì),而是網(wǎng)絡(luò)本身和軟件堆棧。目前Mellanox已經(jīng)可以把軟件堆??刂圃趲装賯€納秒。可以說,目前TCP/IP方法論已經(jīng)影響了整個系統(tǒng)的性能。
RDMA是什么?它就是遠(yuǎn)程直接訪問,繞過軟件堆棧,繞過CPU,不需要CPU干預(yù),因?yàn)閮?nèi)核會產(chǎn)生中斷,出現(xiàn)等待時間。而RDMA是遠(yuǎn)程直接訪問的,CPU卸載后,效率會提升好多倍,200多個微秒的軟件堆棧延遲就可以忽略了。
今年會有一個新的標(biāo)準(zhǔn)RoCE(RDMA over Converged Ethernet),是跑在以太網(wǎng)上的RDMA。性能比跑在InfiniBand上略低,但是相對之前行能也會有很多倍的提升,而且成本更低。今年6月份會有新的RoCE標(biāo)準(zhǔn)提出來,其中一個是RoCE會支持NVMe over Fabric。我們的新產(chǎn)品會支持200G。
在分布式存儲中,為了保證數(shù)據(jù)的安全性,會進(jìn)行備份,但是利潤率會變低,需要糾刪碼提高利用率。糾刪碼需要做重新計算,需要CPU資源,占用率有時會非常高。在我們的產(chǎn)品上,會把糾刪碼交給閃存卡來做,不需要占用CPU。
NVME Over Fabrics這個很好,未來空間也很大。但是在傳統(tǒng)設(shè)計里,它也需要消耗CPU資源。因此我們希望CPU只是用來做計算的,如網(wǎng)絡(luò)計算,NVME Over Fabrics這些工作量,都可以交給閃存卡來做。
剛才講到一些產(chǎn)品和技術(shù)趨勢,現(xiàn)在我想介紹一下我們的產(chǎn)品。
今天我希望大家記住一個新單位,就是納秒。我們這款機(jī)器的延遲維持300納秒左右,和市場上的幾個微妙的以太網(wǎng)產(chǎn)品差10倍以上,這是低延遲。帶寬方面,目前是100G,明年我們還會有200G的產(chǎn)品推出。另外,丟包也是影響存儲效率的比較重要的問題,Mellanox目前可以做到0丟包。當(dāng)然還有功耗問題,我們也提供了很低的功耗。
現(xiàn)在我想談一下閃存卡的問題。我發(fā)現(xiàn)有很多的技術(shù)在里面。首先是帶寬的問題, 100G帶寬,延遲0.7微秒,即700納秒,其中我們的卡的延遲只有200納秒,剩余延遲由軟件堆棧產(chǎn)生。從ConnectX 4開始,我們可以支持NVMe Over Fabrics。到了ConnectX 5這一代,開始支持NVMe的卸載,會釋放CPU的資源,讓你的CPU專門做復(fù)制、快照、重刪、容災(zāi)等,從而實(shí)現(xiàn)低延遲,高效率。同時,ConnectX 5里還集成了E switch,基于這個卡可以創(chuàng)建出一個小的存儲系統(tǒng)。
到了BlueField的階段,它集成了ConnectX 5所有的功能,100G芯片,前后端的端口,支持PCIe Gen3、PCIe Gen4,同時還有一個ARM??梢哉f,有這個芯片,和一個主板,就可以設(shè)計你的整個系統(tǒng)了。BlueField可以幫助企業(yè)建立全閃存系統(tǒng),從前端的連接到主機(jī),后端的連接到磁盤,再到計算。
目前我們最新的產(chǎn)品是ConnectX-6,支持PCIe Gen4,適用如高性能計算等應(yīng)用場景。
下面我想為大家介紹一下落地的東西。第一個華為,在華為這款基于Mellanox的產(chǎn)品中,我們做到了1000萬IOPS;第二個是華云網(wǎng)際(FusionStack),單節(jié)點(diǎn)做到100萬IOPS;下面是Memblaze,同樣做到100萬 IOPS,帶寬是10GB/s最后一個是戴爾EMC的Isilon,也是用的我們的網(wǎng)絡(luò)。在基于Mellanox的網(wǎng)絡(luò)里面,都能把存儲的性能發(fā)揮到極致。大家可以看到,我們所有的產(chǎn)品基本都是單節(jié)點(diǎn)百萬IPOS起。
我在這里面有一個觀點(diǎn),如果想把性能發(fā)揮到極致,那么一定不能讓網(wǎng)絡(luò)成為你的瓶頸。反而要利用網(wǎng)絡(luò),降低你的消耗,降低你的性能依賴,讓存儲系統(tǒng)跑得更快。
謝謝大家。