亚洲暴爽 av人人爽日日碰,中文字日产幕乱五区,亚洲欧美激情小说另类

邁絡(luò)思亞太區(qū)解決方案營銷總監(jiān) 張輝

　　張輝表示，早期的矛盾主要集中在毫秒級別的磁盤介質(zhì)延遲，而網(wǎng)絡(luò)延遲和軟件堆棧(200+微秒)基本都處于微秒級別。然而，現(xiàn)在的介質(zhì)延遲基本已經(jīng)被控制在微秒級別。這時候你會發(fā)現(xiàn)你的瓶頸主要矛盾已經(jīng)不是介質(zhì)，而是網(wǎng)絡(luò)本身和軟件堆棧。

　　以下為張輝的演講實(shí)錄整理：

　　今天我要講的內(nèi)容是網(wǎng)絡(luò)如何把存儲的性能釋放出來，并把閃存的性能釋放得更高。

　　我們現(xiàn)在可以看到，閃存發(fā)展越來越快，整個生態(tài)系統(tǒng)也會增長越來越快，幾乎接近100%的增長速度。當(dāng)然，NVMe相關(guān)的增長也更快，在2020年的時候，有70%的Server會用到NVMe。存儲方面，幾乎70、80%會用到NVMe。也就說，用不到NVMe的場景會很少。

　　最早的SAS、SATA、PCI的NVMe。這條做技術(shù)什么感覺？傳統(tǒng)的磁盤，走SCSi協(xié)議一路下來是沒有問題的，但是介質(zhì)和技術(shù)在發(fā)展的時候，協(xié)議(軟件層)沒有更大的進(jìn)步，這時候會出現(xiàn)效率降低。這里面有一個對比，一個是SAS，一個是SATA，基于SATA走PCIe的性能會出現(xiàn)幾倍的差距，因?yàn)镹VMe把整個協(xié)議層做了重新的編寫，跳過了一些比較繁鎖的過程。

　　存儲是隨著介質(zhì)的變化，科技的發(fā)展，當(dāng)然最重要的也是來自于客戶需求的變化，迫使我們做更好。為此，我們有兩個層面的應(yīng)對方法。一個容量更大，另外一個是速度更快。單介質(zhì)目前發(fā)展的比較快，包括未來會有3D XPoint，而我個人比較堅信未來Flash會發(fā)展的越來越快，越來越好。

　　這個問題暴露出來這個單節(jié)點(diǎn)性能越來越好，那么他們之間如何通信？我舉兩個例子，比如北京的交通。我相信無論是北京還是三、四線城市都會擁堵，拓寬街道其實(shí)難以解決這個問題。那么怎么解決這個問題？不可能不買車，就像不可能不去運(yùn)用我們這些數(shù)據(jù)，如何疏導(dǎo)也是一個問題。因此我剛才提到了帶寬，再一個就是協(xié)議層的調(diào)整。在網(wǎng)絡(luò)上相對比較簡單，我們看一下Mellanox是怎么做的。在NVMe出現(xiàn)以后你會發(fā)現(xiàn)，萬兆根本無法支撐，百G的情況下也只能跑3-4個。所以說，25G剛剛起步，一個25G剛剛夠支撐一個NVMe。

　　剛才我們談了介質(zhì)，現(xiàn)在我想談“超融合”。超融合是典型的分布式，節(jié)點(diǎn)之間的通信流量會很大。因此這個技術(shù)對都網(wǎng)絡(luò)的要求會越來越高，對延時和帶寬也都有很高的要求。

　　再回到技術(shù)看一下，我們要優(yōu)先解決網(wǎng)絡(luò)中的主要問題。早期的矛盾主要集中在毫秒級別的磁盤介質(zhì)延遲，而網(wǎng)絡(luò)延遲和軟件堆棧(200+微秒)基本都處于微秒級別。然而，現(xiàn)在的介質(zhì)延遲基本已經(jīng)被控制在微秒級別。這時候你會發(fā)現(xiàn)你的瓶頸主要矛盾已經(jīng)不是介質(zhì)，而是網(wǎng)絡(luò)本身和軟件堆棧。目前Mellanox已經(jīng)可以把軟件堆?？刂圃趲装賯€納秒。可以說，目前TCP/IP方法論已經(jīng)影響了整個系統(tǒng)的性能。

　　RDMA是什么？它就是遠(yuǎn)程直接訪問，繞過軟件堆棧，繞過CPU，不需要CPU干預(yù)，因?yàn)閮?nèi)核會產(chǎn)生中斷，出現(xiàn)等待時間。而RDMA是遠(yuǎn)程直接訪問的，CPU卸載后，效率會提升好多倍，200多個微秒的軟件堆棧延遲就可以忽略了。

　　今年會有一個新的標(biāo)準(zhǔn)RoCE(RDMA over Converged Ethernet)，是跑在以太網(wǎng)上的RDMA。性能比跑在InfiniBand上略低，但是相對之前行能也會有很多倍的提升，而且成本更低。今年6月份會有新的RoCE標(biāo)準(zhǔn)提出來，其中一個是RoCE會支持NVMe over Fabric。我們的新產(chǎn)品會支持200G。

　　在分布式存儲中，為了保證數(shù)據(jù)的安全性，會進(jìn)行備份，但是利潤率會變低，需要糾刪碼提高利用率。糾刪碼需要做重新計算，需要CPU資源，占用率有時會非常高。在我們的產(chǎn)品上，會把糾刪碼交給閃存卡來做，不需要占用CPU。

　　NVME Over Fabrics這個很好，未來空間也很大。但是在傳統(tǒng)設(shè)計里，它也需要消耗CPU資源。因此我們希望CPU只是用來做計算的，如網(wǎng)絡(luò)計算，NVME Over Fabrics這些工作量，都可以交給閃存卡來做。

　　剛才講到一些產(chǎn)品和技術(shù)趨勢，現(xiàn)在我想介紹一下我們的產(chǎn)品。

　　今天我希望大家記住一個新單位，就是納秒。我們這款機(jī)器的延遲維持300納秒左右，和市場上的幾個微妙的以太網(wǎng)產(chǎn)品差10倍以上，這是低延遲。帶寬方面，目前是100G，明年我們還會有200G的產(chǎn)品推出。另外，丟包也是影響存儲效率的比較重要的問題，Mellanox目前可以做到0丟包。當(dāng)然還有功耗問題，我們也提供了很低的功耗。

　　現(xiàn)在我想談一下閃存卡的問題。我發(fā)現(xiàn)有很多的技術(shù)在里面。首先是帶寬的問題， 100G帶寬，延遲0.7微秒，即700納秒，其中我們的卡的延遲只有200納秒，剩余延遲由軟件堆棧產(chǎn)生。從ConnectX 4開始，我們可以支持NVMe Over Fabrics。到了ConnectX 5這一代，開始支持NVMe的卸載，會釋放CPU的資源，讓你的CPU專門做復(fù)制、快照、重刪、容災(zāi)等，從而實(shí)現(xiàn)低延遲，高效率。同時，ConnectX 5里還集成了E switch，基于這個卡可以創(chuàng)建出一個小的存儲系統(tǒng)。

　　到了BlueField的階段，它集成了ConnectX 5所有的功能，100G芯片，前后端的端口，支持PCIe Gen3、PCIe Gen4，同時還有一個ARM?？梢哉f，有這個芯片，和一個主板，就可以設(shè)計你的整個系統(tǒng)了。BlueField可以幫助企業(yè)建立全閃存系統(tǒng),從前端的連接到主機(jī)，后端的連接到磁盤，再到計算。

　　目前我們最新的產(chǎn)品是ConnectX-6，支持PCIe Gen4，適用如高性能計算等應(yīng)用場景。

　　下面我想為大家介紹一下落地的東西。第一個華為，在華為這款基于Mellanox的產(chǎn)品中，我們做到了1000萬IOPS;第二個是華云網(wǎng)際(FusionStack)，單節(jié)點(diǎn)做到100萬IOPS;下面是Memblaze，同樣做到100萬 IOPS，帶寬是10GB/s最后一個是戴爾EMC的Isilon，也是用的我們的網(wǎng)絡(luò)。在基于Mellanox的網(wǎng)絡(luò)里面，都能把存儲的性能發(fā)揮到極致。大家可以看到，我們所有的產(chǎn)品基本都是單節(jié)點(diǎn)百萬IPOS起。

　　我在這里面有一個觀點(diǎn)，如果想把性能發(fā)揮到極致，那么一定不能讓網(wǎng)絡(luò)成為你的瓶頸。反而要利用網(wǎng)絡(luò)，降低你的消耗，降低你的性能依賴，讓存儲系統(tǒng)跑得更快。

　　謝謝大家。

分享到

sunk

相關(guān)推薦

近期文章

熱門標(biāo)簽